Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Dimension: px
Commencer à balayer dès la page:

Download "Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»"

Transcription

1 Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 : Présentation de la plate-forme de Data Mining PASW Modeler Partie 3 : Ateliers de manipulation de base de PASW Modeler 2

2 Partie 1 : Introduction au Data Mining 1- Qu est ce que le Data Mining? 2- Domaines d applications 3- Principales techniques 3.1 Techniques non supervisées 3.2 Techniques supervisées 4- Méthodologie de Projets 3 Contexte économique Les entreprises doivent améliorer La qualité des produits & services La connaissance des marchés et leur dynamique Leur position face à la concurrence Les coûts de production La connaissance des technologies pour en tirer profit La maîtrise de l information par un processus d intelligence La collecte de l information, Le traitement de l information, La diffusion de l information à des fins stratégiques D où l importance du «Data Mining» 4

3 Plate-forme analytique et opérationnelle pour l entreprise Intégration des canaux de communication et des processus métiers Finances Marketing Ventes Organisation Credit Scoring Notation Interne & Risque (ex. Bâle II, Patriot Act) Optimisation des grilles tarifaires Valorisation des sinistres Détection de Fraude (sinistres, cartes, prêt) Blanchiment d Argent Acquisition client, ventes croisées et rétention Optimisation des campagnes Marketing Segmentation Client Valeur Comportement Simulation tarifaire Optimisation des interactions Web Analyse du portefeuille client Ventes croisées et rétention sur le point de contact du client Affectation des prospects aux commerciaux Analyse de la performance Force de vente Secteurs géographiques Service Client pro-actif Call center monitoring et tuning Analyse automatique des s Satisfaction Client Recrutement des employés Satisfaction des employés Rétention des employés Direction Générale : Analyses et Reporting Analyses Data mining Statistiques Sortantes Entrantes Actions Vision Client Unique Datamart Marketing Données déclaratives Données contrats Navigation Web Call Center Données opérationnelles 5 De l analyse historique à l analyse Predictive Analyse Historique (BI) Analyse Prédictive (DM) Valeur Business Combien de clients avons nous perdu? Query & Reporting Quelle est leur localisation? OLAP Data mining Quels clients type sont à risques et pourquoi? Real time distribution Que devons nous offrir à ce client aujourd hui? Temps Point de départ de la chaîne de prise de décision : le Reporting Soucis pour les entreprises : données incompatibles, lourdeur du traitement, difficultés de consolidations,. 6

4 Le Data Mining : Un champs multidisciplinaire Statistiques Régression logistique Analyse discriminante Arbre de décision : CHAID Classification : K-Means Intelligence Artificielle, Machine Learning Réseaux de neurones Règles d inductions Kohonen Data Mining Familles d algorithmes Prédictive prédit une valeur numérique ou symbolique Classement (Segmentation ou Clustering) Identifier des groupes d items ayant un comportement similaire. Association trouver des événements ayant une forte probabilité de se réaliser ensemble Database Technology ETL, ROLAP, MOLAP Reporting I. BERRADA7 1 Qu est ce que le Data Mining? 8

5 Qu est ce que le Data Mining? Data Mining est un sujet qui dépasse le cercle restreint des scientifiques et suscite un vif intérêt dans le monde des affaires «l extraction d information originale, auparavant inconnues et potentiellement utiles, à partir de données» (Piateski-Shapiro). «la découverte de nouvelles corrélation (ou coefficient de coïncidence), tendances et modèles par tamisage d un large volume de données» (John Page). «un processus d aide à la décision où les utilisateurs cherchent des modèles d interprétation dans les données» (Kamran Parsaye). 9 Qu est ce que le Data Mining? «l exploration et l analyse, par des moyens automatiques ou semi-automatiques, d un large volume de données afin de découvrir des tendances ou des règles» (M. Berry). «un processus non élémentaire de mise à jour de relation, corrélation, dépendances, association, modèles, structure, tendance, classes, facteurs obtenus en naviguant à travers de grands ensembles de données» (M. Jambu). Avec poésie: «torturer l information disponible jusqu à ce qu elle avoue» (Dimitris Chorafas). Avec cynisme et réalisme «passer les données dans la machine à saucisses pour obtenir des Merguez douces ou épicées» (Moktar Outtas) 10

6 Le data mining : une définition Le data mining est un processus de gestion et de valorisation de l information client au service de la performance de l entreprise. Le data mining doit permettre de : 1. Décrire un phénomène «client» (choix, désaffection ). 2. Comprendre ce phénomène (relations, dépendances). 3. Modéliser (abstraire le phénomène dans un modèle). 4. Prédire (anticiper sur de nouvelles données à l aide du modèle). 11 Quelle Problématique du Data Mining? Comment gérer la grande quantité des données brutes provenant de plusieurs sources pour les rendre accessibles et lisibles par le décideur? 12

7 Définition du Data mining Extraction d information d intérêt (non triviale, implicite, inconnue à priori et potentiellement utile) à partir de données stockées dans de large entrepôts de données, en utilisant des procédures automatiques ou semi-automatiques pour une prise de décision. Appelé aussi KDD (Knowledge Discovery in Databases ) 13 De la donnée vers la connaissance Data mining: noyau du processus de découverte de la connaissance. Enrichissement des variables Data Mining Données sources Sélection des données Qualification des données Données validées Données cibles Information découverte Données Transformées Utilisation de la connaissance Information exploitée et diffusée 14

8 Processus de Data Mining : Etude de cas - ciblage Mk Périmètre d un projet DM pilote ACTION DATAMINING ENRICHISSEMENT DES VARIABLES TRANSFORMATION DES DONNEES Information Exploitée et diffusée BDI MARKETING Données Validées BD Développement Données Transformées Information Scoring Modélisation Reporting DW Données sources Données Marketing Plate-forme analytique d un projet DM 15 2 Domaines d applications 16

9 Applications clefs du Data Mining Marketing direct : identifier les profils des prospects ayant les meilleurs taux de réponses à une action marketing donnée (réponse / non réponse - réponse achat / réponse non achat / non réponse). Credit Scoring : identifier les profils des emprunteurs ou souscripteurs à risque en matière de crédit ou d'assurance (bon payeur/ mauvais payeur - client non risqué/client à risque moyen/client à risque élevé). Analyse de marché : identifier les segments les plus porteurs sur un marché - Déterminer les variables influant sur la vente d un produit ou d'un service - Identifier les profils des clients de tel ou tel produit ou tel ou tel service. Industrie Industrie Santé Utilisation des Ressources Qualité des Soins Satisfaction Clientèle le Contrôle Qualité Finance / Service Acquisition Clientèle le Détection des Fraudes Data mining Détection des Fraudes Analyse Base de Données Secteur Public Ventes Croisées, Ventes Additionnelles Fidélisation Fidélisation Analyse de Panier d Achat d Télécom Distributeur/VPC Distributeur/VPC Application Secteur Médical : déterminer les facteurs de risques liées à une maladie (développement / non développement) - identifier les profils des patients susceptibles de réagir favorablement à un traitement (guérison / non guérison). 17 Champs disciplinaire du CRM champs disciplinaires Problématique d acquisition Problématique de fidélisation Problématique de rétention Problématique de migration 3 Migration Mouvement des clients dans les segments actifs de la pyramide de valeur Rétention/Attrition Mouvements des consommateurs depuis les segments actifs vers les segments inactifs. Acquisition/Fidélisation Basée notamment sur la segmentation et le profilage Sup Grands Moyens Petits Inactifs Actifs Inactifs I. BERRADA 18

10 L historique du Data Mining Ces techniques ne sont pas récentes Ce qui est nouveau Capacité de stockage et de calcul // (matériel puissant) Package de techniques de natures différentes qui peuvent s enchaîner les unes aux autres L intégration du DM dans le processus de production Elle permettent de traiter de grands volumes de données et font sortir le DM des Laboratoires de Recherche pour entrer dans les entreprises. Modélisation le noyau du data mining C est ce qui permet de différencier le DM de ces ancêtres Les requêtes, le reporting, la visualisation et les statistiques simples permettent de tester les hypothèses Les hypothèses, les idées, sont spécifiées par l utilisateur La Modélisation permet la génération des hypothèses Utiliser les outils de data mining pour suggérer de nouvelles idées et directions 19 Des statistiques.. Au Data Mining Statistiques Quelques centaines d individus Quelques variables recueillies avec protocole spécial (échantillonnage, plan d expérience, etc.) Fortes hypothèses sur les lois statistiques suivies Data Mining Quelques millions d individus Quelques centaines de variables Nombreuses var non numériques Données recueillies avant l étude et souvent à d autres fins Population constamment évolutive Données imparfaites avec erreur de codification Nécessité de calculs rapides On ne cherche pas l optimum mathématique mais le modèle le + facile à appréhender par les utilisateurs non statisticiens 20

11 Différence entre le Data Mining et la Statistique traditionnelle Les techniques de Data Mining remplacent-elles les statistiques? Les statistiques sont omniprésentes. On les utilise : Pour faire une analyse préalable, Pour estimer ou alimenter les valeurs manquantes, Pendant le processus pour évaluer la qualité des estimations, Après le processus pour mesurer les actions entreprises et faire un bilan. Statistiques et Data Mining sont tout à fait complémentaires 21 3 Principales techniques 3.1 Techniques descriptives Classification Typologie Règles d association 3.2 Techniques prédictives Classement Arbre de décision Réseau de neurone 22

12 Principales approches de modélisation Prédictive prédit une valeur numérique ou symbolique Classement (Segmentation ou Clustering) Identifier des groupes d items ayant un comportement similaire. Association trouver des événements ayant une forte probabilité de se réaliser ensemble 23 Les 2 types de techniques de DM Les techniques descriptives visent à mettre en évidence des informations présentes mais cachées par le volume des données (ex: segmentation de clientèles et recherche d associations de produits sur les tickets de caisse) Réduisent, résument, synthétisent les données il n y a pas de var cible à expliquer Les techniques prédictives visent à extrapoler de nouvelles informations à partir des informations présentes (ex. Scoring) Expliquent des données Il y a une variable cible à prédire. & & 24

13 Méthodes descriptives de DM Type Famille Sous famille Algorithme Modèles géométriques Méthodes descriptives Modèles à base de règles logiques Analyse factorielle (projection sur un espace de dimension inférieure) Détection de liens Analyse en composantes principales ACP (var. continues) Analyse des correspondances multiples ACM (var. catégorielle) Centre mobiles, k_means, nuées dynamiques Classification hiérarchique Classification neuronale (carte de Kohonen) Classification relationnelle Détection d associations Recherche de séries similaires 25 Méthodes prédictives de DM Type Famille Sous famille Algorithme Modèles à base de règles logiques Arbre de décision Arbre de décision (var. à expliquer continue ou catégorielle) Modèles à base de fonctions mathématique Réseaux de neurones Réseaux à apprentissage supervisé perceptron, réseau à fonction radiale de base Méthodes prédictives Modèles paramétriques ou semi paramétriques Régression linéaire (var. à expliquer continue) Modèle linéaire général (var. à expliquer continue) Régression logistique (var. à expliquer catégorielle) Analyse discriminante de Fisher (var. àexpliquer catégorielle) Modèle log-linéaire (var. à expliquer discrète) Prédiction sans modèle Modèles linéaire généralisé (var. à expliquer continue, discrète ou catégorielle) Modèle additif généralisé (var. à expliquer continue, discrète ou catégorielle) K plus proche voisin (K-NN) 26

14 Principales techniques Zoom sur les techniques descriptives Classification Typologie Règles d associations Principales techniques Zoom sur les techniques descriptives Classification Typologie Règles d associations 28

15 Pourquoi et Quand utiliser la classification? Quand on souhaite trouver des patterns sans cible Pour trouver des anomalies / cas atypiques Ex. détection de fraude Plusieurs terminologies Clustering Attention, il est employé par les anglo-saxons (classification désigne la technique prédictive Classement en français) Segmentation : employé en Marketing Typologie Taxinomie (Biologie) Nosologie (Médecine) 29 Plusieurs algorithmes de classification Méthode hiérarchique Ascendantes (agglomérations) Basées sur une notion de distance Basée sur une notion de densité Descendante (divisives) Méthodes de partitionnement Centres mobiles : K-means Réseaux de Kohonen Méthodes Two Step 30

16 Comparatif entre les différentes méthodes de classification de partitions Méthode Hiérarchique Il n'est pas nécessaire de sélectionner à l'avance le nombre de classes. on rassemble les pairs de sous-classes avec la plus petite distance. Ceci est répété jusqu à obtenir une classe qui regroupe tout. Méthode K_Means Etant donné k entier, Partitionner les cas en k groupes. Calculer un centre ou point moyen de chaque groupe Affecter chaque cas (point) au groupe ayant le centre le plus proche Retour à l étape 2, stopper lorsqu il n y plus d affectation possible. Méthode Two Step Traite les données de grandes tailles. Utilisée pour les variables continues et catégorielles Constituée de deux étapes : Étape 1 : Regroupement préliminaire (sub-cluster). Etape 2 : Regroupement final (cluster) : l'utilisation de la méthode de classification hiérarchique pour fusionner progressivement les sousclasses de l étape 1 en classes de plus en plus importantes, sans qu'un nouvel examen des données soit nécessaire. Validité = inter intra 31 Principe du Réseau de Kohonen Il s agit d un algorithme original de classification qui a été défini par Teuvo Kohonen dans les années 80. L algorithme regroupe les observations en classes en respectant la topologie de l espace des observations. On se définit une notion de voisinage entre classes et les observations voisines dans l espace des variables. En général, on suppose que les classes sont disposées sur une grille rectangulaire qui définit naturellement les voisins de chaque classe. Couche cachée, lxm nœuds connectés avec un certain poids p ijk Principe de l algorithme L algorithme de classement est itératif L initialisation : associer à chaque classe un vecteur code dans l espace des observations choisi de manière aléatoire Ensuite, à chaque étape, on choisit une observation au hasard, on la compare à tous les vecteurs codes et on détermine la classe gagnante, i.e. celle dont le vecteur code est le plus proche au sens d une distance donnée à priori. On rapproche de l observation les codes de classe gagnante et des classes voisines On ne modifie à chaque étape que le code de la classe gagnante. C est un algorithme compétitif. Couche d entrée, 1 nœud par var (-> n nœuds) 32

17 Description de Kohonen L'analyse Kohonen est une méthode de classification non supervisée. Elle a les propriétés: de représenter les données en conservant la topologie. des données proches (dans l'espace d'entrée) vont avoir des représentations proches dans l'espace de sortie et vont donc être classés dans une même classe ou dans des classes voisines. Un réseau de Kohonen est constitué: d'une couche d'entrée: Tout individu à classer est représenté par un vecteur multidimensionnel (le vecteur d'entrée). A chaque individu est affecté un neurone qui représente le centre de la classe d'une couche de sortie (ou couche de compétition). Les neurones de cette couche entrent en compétition.seuls les meilleurs gagnent("wta ou Winner takes all") 33 Representation de kohonen A chaque neurone, on fait correspondre un espace de sortie qui, en général, est un espace 2D défini par une grille soit rectangulaire soit hexagonale. Chaque neurone posséde 8 plus proches voisins 34

18 Description de Kohonen Le neurone biologique Le neurone de Kohonen a une fonction d'activation qui ne prend que des valeurs positives. Compétition Chaque neurone reçoit les signaux de ses voisins. Son excitation (ou son inhibition) dépend de la distance et peut être représentée par la fonction ci-aprés. : + exitation :-inhibition Les neurones voisins ont une action d'excitation. Les neurones éloignés ont une action d'inhibition. La loi d'évolution de la couche fait que: le réseau s'organise de telle façon à créer un amas de neurones autour du neurone le plus stimulé par le signal d'entrée. Les autres neurones se stabilisent dans un état d'activation faible. 35 Algorithme 1) Prétraitement des données Chaque vecteur d'entrée V est normalisé de telle façon à ce que sa longueur soit égale à 1. Les poids initiaux W (générés aléatoirement) des neurones de compétition sont également normalisés à 1. 2) Présentation des données Les données d'entrée peuvent être présentées soit dans leur ordre initial soit de façon aléatoire. 3) Recherche du neurone gagnant Le programme recherche le neurone dit "gagnant" en minimisant(v-w). Les neurones voisins du gagnant sont modifiés, à chaque itération, comme suit: W=W+alpha(V-W) alpha est la vitesse d'apprentissage. Elle peut être linéaire (et décroissante en fonction du temps) ou gaussienne des distances (et décroissante en fonction du temps). 4) Visualisation de la couche de sortie La visualisation de la carte finale est en générale faite en projetant les neurones gagnants dans un espace 3D/2D("Non linear mapping"). 36

19 Algorithme d Apprentissage d un réseau Kohonen Initialisation aléatoire des poids p ijk Pour tout individu x=(x 1,x 2,, x n ) présenté au réseau sont calculées les distances le séparant de lxm nœuds : Nœud retenu pour représenter x est le nœud (i,j) pour n lequel d ij (x) est minimum. 2 dij( x) ( xk pijk ) k 1 Ce nœud et tous les nœuds voisins voient leurs poids ajustés p ijk + (x k -p ijk ) pour les rapprocher de x. [0,1] est le taux d apprentissage pendant l apprentissage. C est cet ajustement des poids dans tout le voisinage du nœud «gagnant» qui rapproche les nœuds voisins de (i,j) de l individu x. On diminue la taille du voisinage et on prend un autre individu (enregistrement) x. 37 Conseils d ordre général sur les solutions de classification Il existe un certain nombre de principes standard pouvant être appliqués à chaque solution de classification. Les plus critiques sont : Nombre d enregistrements par classe Les classes ne doivent pas être trop petites dans la pratique. Certains cas isolés peuvent constituer leur propre classe (5 ou 10 cas dans un jeu de données de enregistrements). Nombre de classes Le nombre de classes étant arbitraire, il est courant d essayer des solutions avec différents nombres de classes en examinant chacune tour à tour pour déterminer laquelle est la plus utile. 38

20 3.2 Principales techniques Zoom sur les techniques prédictives Classement Arbre de décision Réseau de neurone 39 Techniques prédictives Passé pour prédire l avenir 40

21 Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur pour permettre une validation indépendante des modèles. Parfois l algorithme divise automatiquement les données en données d apprentissage/test Prédire la cible qu est-ce que nous essayons de prédire? Rôle de chaque champs dans le modèle Directions (terminologie de Clementine) IN, OUT, LES DEUX, AUCUNE Précision Combien de fois le modèle prédit correctement? Ou pour les nombres, moyenne d erreur, corrélation, Confiance à quel point cette prédiction peut être correcte? Parfois ce n est pas une probabilité, mais juste une indication Les questions de l équilibre Est-ce les oui / non sont de proportions égales 50/50? Quelle différence peut-il faire? 41 Modèles Prédictifs Certains modèles sont meilleurs que d autres : Précision Compréhension Modèles varient entre facile à comprendre à incompréhensible Arbre de Décision Règles d induction Modèles de Régression Réseaux de Neurones Simple Complexe 42

22 Classification vs Classement Classification des données consiste regrouper les données en classes (non définie à priori) basées sur le principe conceptuel : maximiser la similarité intra classe et minimiser la similarité interclasse. Classement (affecter à un classe pré-définie, Analyse Discriminante, Rég. Logistique) est une méthode d apprentissage supervisée, alors que la classification est une méthode non supervisée. 43 Principe des arbres de décision Les méthodes de segmentation par Induction de Règles sont des techniques statistiques (CHAID, CART et non statistiques C5) multivariées et supervisées. Elles permettent : d'étudier plusieurs variables simultanément, et, plus précisément, la relation entre une variable dite dépendante (cible) et des variables dites indépendantes. Le résultat de la segmentation, décrit sous la forme d'un arbre dit arbre de décision: indique quels sont, parmi les variables indépendantes considérées, les meilleurs prédicteurs de la variable cible, et affiche les caractéristiques des groupes définis par ces prédicteurs. De partitionner de manière séquentielle, les données en des groupes (segments), en fonction des modalités des variables indépendantes retenues pour leur pouvoir explicatif sur la variable dépendante. 44

23 Exemple: Arbre de décision age : du chef du foyer, sexe : le sexe du chef du foyer, enfant : existence d enfants, revenu : revenu du ménage, carte : présence de carte bancaire, nbpers : # de personne dans le foyer, occup : type de profession I. BERRADA 45 Prédire le risque client par l arbre l de décisiond 46

24 Les individus entre 25 à 35 ans sont tous bons payeurs lorsqu ils perçoivent un salaire mensuel, mais majoritairement des mauvais payeurs lorsqu ils perçoivent un salaire hebdomadaire. Les individus de moins de 25 ans sont en majorité de mauvais payeurs lorsqu ils sont payés à la semaine et se répartissent entre bons et mauvais lorsqu ils sont payés au mois. Les individus de plus de 35 ans sont toujours des bons payeurs, quel que soit le mode de rémunération. I. BERRADA 47 Pourquoi / quand utiliser les règles d Association? Exploration Générale Ne sait pas exactement ce que je cherche, je veux juste savoir ce qui va avec quoi Pannier de la ménagère Analyse des transactions commerciales à l aide d un moteur d associations grande distribution, Analyse des mouvements dans les grandes banques, Analyse des incidents en assurance Analyse des associations des pages Web 48

25 Exemple de règles d association Analyse du panier de la ménagère Découverte d associations et de corrélations entre les articles achetés par clients en analysant les achats effectués (panier) Quels items tendent à se retrouver ensemble? Une règle est une expression de la forme : Si condition alors Résultat La règle Soda & Boucherie => Conserve légumes si vous avez Soda et Boucherie, vous achèteriez probablement Conserve légumes probablement = confiance, Combien de cas = couverture (ou support ). L indice de confiance = p(conditions et résultat) / p(condition) L indice de support = p(condition et résultat) 49 Exemple de calcul des indices de confiance et du support 50

26 Application des règles r d association d pour le choix des plans tarifaires par les clients Le Support correspond au pourcentage d'enregistrements contenus dans les données d'apprentissage pour lesquels les antécédents sont vrais (true). 13% des cas vérifient la règle Forfait maîtrisé Forfait plafonné est vraie avec une confiance de 89,7% 51 Les réseaux de neurones Simulation des neurones dans le cerveau humain par apprentissage de règles et généralisations Une classe d outils et d algorithmes très puissants pour : La prédiction La classification La segmentation ou Clustering Ils sont utilisés dans plusieurs domaines : Prévision des séries temporelles dans les finances Diagnostic médical Identification de segments de clients potentiels Détection de fraude Etc. 52

27 Qu est ce qu un réseau de neurones? Un réseau de neurone typique présente plusieurs neurones rangés en couches afin de créer un réseau. Chaque neurone peut être considéré comme un calculateur élémentaire à qui l on attribue une tâche simple et unique. Les connexions entre neurones donnent au réseau sa capacité à apprendre des caractéristiques et des relations. Une représentation simple d un réseau de neurones : Perceptron 53 Exemples de fonctions d activation x Sigmoïde ou logistique : e f ( x) 1 x e x 2e Tangente hyperbolique : f ( x) 1 x 1 e Linéaire : f ( x) x L unité ou neurone combine ses entrées (valeurs entre 0 et 1) en une seule valeur, qu elle transforme après pour produire la sortie (entre 0 et 1). Cette combinaison et cette transformation sont appelées la fonction d activation. Quand la fonction d activation est linéaire, le réseau de neurones n est autre qu une régression linéaire multiple avec comme entrées les variables indépendantes x i et comme sortie la variable dépendante y. Les poids w i ne sont autres que les coefficients β i du modèle de régression. Lorsque la fonction d activation est logistique, le réseau de neurones s assimile à un modèle de régression logistique. La différence avec le modèle de régression linéaire est que la variable dépendante y est binaire (valeurs : 0 ou 1). Quand la fonction d activation est la tangente hyperbolique, le réseau de neurones est un perceptron multi-couches (MLP), variante la plus fréquemment utilisée. On note ici que le modèle se complique avec la présence d une couche cachée. 54

28 Mise en œuvre d un réseau de neurone Les étapes pour la mise en œuvre d un réseau pour la prédiction ou le classement sont : Identification des données en entrée et en sortie Normalisation des données (entre 0 et 1) Constitution d un réseau avec une topologie adaptée (nb de couches, ) Apprentissage ou entraînement du réseau Test du réseau Application du modèle généré par l apprentissage Dénormalisation des données en sortie rétropropagation L entraînement est le processus de choisir les poids optimaux sur les arêtes minimisant SEC pour chaque observation: SEC = (données réelles données en sorties)² Utiliser l ensemble d apprentissage afin de calculer les poids et s approcher le possible de la sortie. w nouveau = w encours + w encours w encours = - η ( SEC/ w encours) + α W antérieur η : taux d apprentissage 0<η<1 contrôle l importance de la modification des poids. C est la vitesse de déplacement : plus il est élevé, plus l apprentissage est rapide mais plus le réseau risque de converger vers une solution globalement non optimale. α Le terme de moment aide à diminuer les oscillations autour de l optimum en encourageant les ajustements à rester On peut ne pas atteindre l optimum si α est petit dans la même direction 55 Forces et faiblesses des réseaux de neurones Un RN «apprend itérativement» les patterns dans les données : A chaque itération, le modèle est testé puis raffiné. Alors que les Analyses Statistiques supposent un type de modèle pour les données puis testent son adéquation aux données. Forces Aptitude à modéliser des structures complexes et des données irrégulières Prise en compte des relations non linéaires (interactions) entre les variables. Assez bonne robustesse aux données bruitées Aptitude à modéliser des problèmes très variés. Faiblesses Résultats totalement non explicites Sensibilité à un trop grand nombre de variables non discriminantes (contrairement aux arbres de décision) Convergence vers la meilleure solution globale pas toujours assurée Paramètres nombreux et délicats à régler (nb et taille des couches cachées, taux d apprentissage, moment, etc.) Ne s applique naturellement qu aux variables continues dans l intervalle (0,1) Nécessité de normaliser les données. 56

29 Quel modèle retenir? Plusieurs itérations Data Miners exécutent plusieurs modèles en utilisant les paramètres par défault. Affinent les paramètres ou reviennent à la phase de préparation pour effectuer des transformations requises par le modèle choisi. Courbe ROC 57 En guise de synthèse : Quels problèmes : Fiche technique La Segmentation (clustering) Rechercher des groupes homogènes dans une population d individus Par exemple, segmenter les comportements d achat des clients. Techniques: K-means, CAH (Classification Ascendante Hiérarchique), Nuées Dynamiques, Cartes de Kohonen... 58

30 Quels problèmes : Fiche technique L Association Rapprocher les caractéristiques, les comportements ou les préférences d un individu Un exemple particulièrement populaire est celui de l analyse du panier de la ménagère Techniques: Règles d associations, analyse des corrélations, analyse des correspondances (ACM) 59 Quels problèmes : Fiche technique La Classification Prévoir l appartenance d un individu à un groupe donné. = Expliquer une caractéristique qualitative à partir d autres variables qualitatives ou quantitatives Exemple: Un client donné fera t il parti des «churners»? Techniques: Arbres de décisions (CART, ChAID, C4.5, ID3,..), Analyse Factorielle Discriminante, Régression Logistique, Réseaux de neurones... 60

31 Quels problèmes : Fiche technique L Estimation Évaluer une caractéristique quantitative d un individu (taille, revenu, montant d achat, ) = Expliquer une caractéristique quantitative à partir d autres variables qualitatives ou quantitatives Exemple: Évaluer le montant d achat d un client? Techniques : Modèles linéaires ou non linéaire, Réseaux de neurones, GLM, Poursuite de projection en Régression Projet Data Mining Coût et Gain Facteurs Clés de succès et quelques freins 62

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Le Data Mining Techniques pour exploiter l information. Auteur : Dan Noël Date : 24.04.2009

Le Data Mining Techniques pour exploiter l information. Auteur : Dan Noël Date : 24.04.2009 Le Data Mining Techniques pour exploiter l information Auteur : Dan Noël Date : 24.04.2009 Agenda de la présentation du 26.03.2009 Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un

Plus en détail

Module 3 : Introduction à la Modélisation SOUS MODELER

Module 3 : Introduction à la Modélisation SOUS MODELER Module 3 : Introduction à la Modélisation SOUS MODELER 1 Techniques prédictives Passé pour prédire l avenir 2 Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Optimisation de la compression fractale D images basée sur les réseaux de neurones Optimisation de la compression fractale D images basée sur les réseaux de neurones D r BOUKELIF Aoued Communication Networks,Architectures and Mutimedia laboratory University of S.B.A aoued@hotmail.com

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

Ce qu est le Data Mining

Ce qu est le Data Mining Data Mining 1 Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Utilisations des mathématiques à des fins opérationnelles

Utilisations des mathématiques à des fins opérationnelles Utilisations des mathématiques à des fins opérationnelles Michael Vandenbossche mvn@softcomputing.com Soft Computing 165 avenue de Bretagne 59000 Lille 1. Présentation 2. Indicateurs statistiques de base

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! "##$ % &!

 # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! ##$ % &! "# $ %%& ' ( )*+, '()*+,'+''-++.+/0112134+1.50*406 "##$ %& 8CC "#$%& ' ( )* +,-./ 0 123 456+7 3 7-55-89.*/ 0 +3 *+:3 ;< =3 3-3 8 0 23 >-8-3 >5? //*/*0;* @A: *53,,3 / * $/ >B+? - 5, 2 34*56 7 /+#** //8

Plus en détail

Ingénierie d aide à la décision

Ingénierie d aide à la décision Ingénierie d aide à la décision Maria Malek 1 er septembre 2009 1 Objectifs et débouchés Nous proposons dans cette option deux grands axes pour l aide à la décision : 1. La recherche opérationnelle ; 2.

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Leçon 4 : Typologie des SI

Leçon 4 : Typologie des SI Leçon 4 : Typologie des SI Typologie des SI Système formel Système informel Typologie des SI Chaque jour au sein d une organisation Le système d info stocke, traie ou restitue des quantités importantes

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.

Plus en détail

Choisissez la formation. Qui vous intéresse! SPSS Maghreb 72,Av.des Nations Unies Rabat-Agdal-Maroc. Tél : 037-67.08.66/67 Fax : 037-67.08.

Choisissez la formation. Qui vous intéresse! SPSS Maghreb 72,Av.des Nations Unies Rabat-Agdal-Maroc. Tél : 037-67.08.66/67 Fax : 037-67.08. SPSS Maghreb 72,Av.des Nations Unies Rabat-Agdal-Maroc Tél : 037-67.08.66/67 Fax : 037-67.08.69 Choisissez la formation spssmaroc@maghrebnet.net.ma Qui vous intéresse! Site web : www.spss.com/localoffices/morocco

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Découvrir les stratégies ayant fait leurs preuves et les meilleures pratiques Points clés : Planifier

Plus en détail

CRM Banque. Fonctionnalités clés. Vision complète de la performance de la banque. Optimisation fondamentale de la relation client

CRM Banque. Fonctionnalités clés. Vision complète de la performance de la banque. Optimisation fondamentale de la relation client CRM Banque Fonctionnalités clés Vision complète de la performance de la banque Suivi des indicateurs clés de performance de la banque avec des tableaux de bord en temps réel, des rapports prédéfinis, une

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Présentation de l auteur En charge de la statistique et du data mining dans un grand groupe bancaire Enseigne le data mining en Master 2 dans

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT POLYTECH'MONTPELLIER IG 5

FOUILLE DE DONNEES. Anne LAURENT POLYTECH'MONTPELLIER IG 5 FOUILLE DE DONNEES Anne LAURENT POLYTECH'MONTPELLIER IG 5 Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Solutions PME VIPDev Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Cette offre est basée sur la mise à disposition de l ensemble de nos compétences techniques et créatives au service

Plus en détail

Le data mining met en œuvre un ensemble de techniques issues des statistiques, de l analyse de données et de l informatique pour explorer les données.

Le data mining met en œuvre un ensemble de techniques issues des statistiques, de l analyse de données et de l informatique pour explorer les données. COURS DE DATA MINING 3 : MODELISATION PRESENTATION GENERALE EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET Phase 4 : Modelisation 1 Classement des techniques

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

Analyse de données électroniques et intelligence d affaires

Analyse de données électroniques et intelligence d affaires Analyse de données électroniques et intelligence d affaires Valoriser les données internes et externes 3 avril 2014 Ordre du jour UNE INTRODUCTION À L ANALYSE DE DONNÉES Analyse de données et l intelligence

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Méthodes d apprentissage statistique («Machine Learning»)

Méthodes d apprentissage statistique («Machine Learning») Méthodes d apprentissage statistique («Machine Learning») Journées d Etudes IARD Niort, 21 Mars 2014 Fabrice TAILLIEU Sébastien DELUCINGE Rémi BELLINA 2014 Milliman. All rights reserved Sommaire Introduction

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing

Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing Alzennyr Da Silva, Yves Lechevallier Projet AxIS, INRIA Paris-Rocquencourt Domaine de Voluceau,

Plus en détail

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015 L analyse des correspondances et ses applications en recherche marketing MONSUG mai 2015 Contenu Mise en contexte et exemple d application L analyse des correspondances multiples (ACM) L ACM et la segmentation

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Analyse de données textuelles Panorama des fonctions, des méthodes et des usages

Analyse de données textuelles Panorama des fonctions, des méthodes et des usages Analyse de données textuelles Panorama des fonctions, des méthodes et des usages Sylvie Dalbin Assistance & Techniques Documentaires DocForum, Le 17 Novembre 2005 Déroulé de l'intervention (1) 1. Définition

Plus en détail

Les techniques d exploitation de données (Data Mining)

Les techniques d exploitation de données (Data Mining) Les techniques d exploitation de données (Data Mining) 1 Présenté par : Emer Mestiri, M.sc Finance, Data Scientist Conseiller Gestion de risque de crédit, Mouvement Desjardins Sommaire 2 I. Logiciel SAS

Plus en détail

IBM SPSS Direct Marketing

IBM SPSS Direct Marketing IBM SPSS Statistics 19 IBM SPSS Direct Marketing Comprenez vos clients et renforcez vos campagnes marketing Points clés Avec IBM SPSS Direct Marketing, vous pouvez : Comprendre vos clients de manière plus

Plus en détail

Les solutions SAS pour les Petites et Moyennes Entreprises

Les solutions SAS pour les Petites et Moyennes Entreprises BROCHURE SOLUTION Les solutions SAS pour les Petites et Moyennes Entreprises Sur un marché aussi compétitif que celui des Petites et Moyennes Entreprises, le temps et l efficacité sont deux valeurs prioritaires

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

INTERNATIONAL CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS (ICMPA) UNESCO CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS

INTERNATIONAL CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS (ICMPA) UNESCO CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS INTERNATIONAL CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS (ICMPA) UNESCO CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS established in 2006 at the University of Abomey-Calavi (Republic of Benin) UNITWIN/UNESCO

Plus en détail

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données.

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données. Data Mining = Knowledge Discovery in Databases (KDD) = Fouille de données 1 Définition : Processus ou méthode qui extrait des connaissances «intéressantes» ou des motifs (patterns) à partir d une grande

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Université Ibn Zohr Faculté des Sciences Juridiques, Économiques et Sociales Exposé sous le thème : Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Plan : Introduction : L

Plus en détail

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013 ENSEIGNEMENT ET MONDE PROFESSIONNEL Illustration d un lien fort au travers d un cours de scoring Jean-Philippe KIENNER 7 novembre 2013 CONTEXTE Une bonne insertion professionnelle des étudiants passe par

Plus en détail

La CRM au sein des BANQUES. Introduction à la CRM dans le secteur bancaire

La CRM au sein des BANQUES. Introduction à la CRM dans le secteur bancaire La CRM au sein s BANQUES Introduction à la CRM dans le secteur bancaire Historique CRM Étape 4 : développement s architectures multicanaux, développement s services Étape 3 : rationalisation s produits

Plus en détail

Méthodologie des S.I. : T2A, gouvernance et pilotage *** Les enjeux du Système d Information Décisionnel dans les établissements de santé

Méthodologie des S.I. : T2A, gouvernance et pilotage *** Les enjeux du Système d Information Décisionnel dans les établissements de santé Méthodologie des S.I. : T2A, gouvernance et pilotage *** Les enjeux du Système d Information d Décisionnel dans les établissements de santé Anne GAGNARD, 18 juillet 2007 Le système d'information décisionnel

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Les clients puissance cube

Les clients puissance cube LETTRE CONVERGENCE Les clients puissance cube L intelligence artificielle au service du marketing des services N 28 To get there. Together. A PROPOS DE BEARINGPOINT BearingPoint est un cabinet de conseil

Plus en détail

Orchestration des campagnes

Orchestration des campagnes Orchestration des campagnes Vecteur de connaissance et de croissance 1 Abilis Présentation de la société Société de conseil IT fondé en 1996 à Montréal par Eric Le Goff et Alain Elbaz Le siège à Montréal

Plus en détail

Cybermarché et analyse comportementale

Cybermarché et analyse comportementale Cybermarché et analyse comportementale Antoine-Eric Sammartino aesammartino@e-laser.fr Séminaire Data Mining - Educasoft Formations 18 juin 2001-1- MENU Le Groupe LaSer Le processus Data Mining L industrialisation

Plus en détail

Apprentissage statistique:

Apprentissage statistique: Apprentissage statistique: Arbre de décision binaire et Random Forest 1 Plan 1. Introduction 2. 3. Application à l apprentissage supervisé 4. Forêt Aléatoire (Random Forest) 2 1 Plan 1. Introduction 2.

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Le métier de Chargé(e) d Etudes Statistiques

Le métier de Chargé(e) d Etudes Statistiques Le métier de Chargé(e) d Etudes Statistiques Nicolas Cabaj Sommaire Présentation du chargé d études statistiques 3 exemples de missions réalisées: Le scoring, illustré par un outil de détection des fraudes

Plus en détail

SYNERGIE Associés Confidentiel Reproduction interdite sans autorisation préalable Page 1 de 44

SYNERGIE Associés Confidentiel Reproduction interdite sans autorisation préalable Page 1 de 44 SYNERGIE Associés Confidentiel Reproduction interdite sans autorisation préalable Page 1 de 44 Le CRM (GRC) est la clef de votre succès Les Principes généraux de la Gestion de la Relation Clients Confidentiel

Plus en détail

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Le tout fichier Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique Introduction à l informatique : Information automatisée Le premier ordinateur Définition disque dure, mémoire, carte mémoire, carte mère etc Architecture d un ordinateur Les constructeurs leader du marché

Plus en détail

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» 46, rue de la Tour 75116 Paris tél. (33) 01 73 00 55 00 fax (33) 01 73 00 55 01 www.softcomputing.com Sommaire

Plus en détail

INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET

INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Introduction 3 Qu est-ce que le data mining... 3 Fantasmes

Plus en détail

Didier MOUNIEN Samantha MOINEAUX

Didier MOUNIEN Samantha MOINEAUX Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Généralités sur les bases de données

Généralités sur les bases de données Généralités sur les bases de données Qu est-ce donc qu une base de données? Que peut-on attendre d un système de gestion de bases de données? Que peut-on faire avec une base de données? 1 Des données?

Plus en détail

Principales caractéristiques de Mixmod

Principales caractéristiques de Mixmod Modèle de mélanges Principales caractéristiques de Mixmod Gérard Govaert et Gilles Celeux 24 octobre 2006 1 Plan Le modèledemélange Utilisations du modèle de mélange Les algorithmes de Mixmod Modèle de

Plus en détail

Marketing comportemental. Guide méthodologique de mise en œuvre

Marketing comportemental. Guide méthodologique de mise en œuvre Marketing comportemental Guide méthodologique de mise en œuvre Sommaire Présentation...3 Les limites du marketing de masse ou du marketing «produit»...5 L idéal marketing : délivrer le bon message au bon

Plus en détail

LES TYPOLOGIES DE PARCOURS METHODES ET USAGES. Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr

LES TYPOLOGIES DE PARCOURS METHODES ET USAGES. Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr LES TYPOLOGIES DE PARCOURS METHODES ET USAGES Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr 1 PLAN Première partie : un exemple traité «en vraie grandeur» : les 26500 jeunes

Plus en détail

COURS DE STATISTIQUES (24h)

COURS DE STATISTIQUES (24h) COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage(4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h) Qu est-ce que la statistique?

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Gestion de la Relation Client (GRC)

Gestion de la Relation Client (GRC) Techniques de DM pour la GRC dans les banques Page 2 I.1 Introduction La gestion de la relation client est devenue un processus essentiel dans les institutions bancaires. Ils essaient toujours d améliorer

Plus en détail

Formation Actuaire Data-Scientist PROGRAMME

Formation Actuaire Data-Scientist PROGRAMME Formation Actuaire Data-Scientist PROGRAMME 15 Septembre 2014 Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 Programme Séance inaugurale : révolu-on numérique besoins des entreprises cadre

Plus en détail

Introduction au Data Mining

Introduction au Data Mining Cours GMM Introduction au Data Mining 1.0 DT_GMM3 Décembre 2009 Légende Table des matières 3 4 Introduction Ce support de cours est un complément au cours magistral et n'est en aucun cas autosuffisant.

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

BUSINESS INTELLIGENCE

BUSINESS INTELLIGENCE GUIDE COMPARATIF BUSINESS INTELLIGENCE www.viseo.com Table des matières Business Intelligence :... 2 Contexte et objectifs... 2 Une architecture spécifique... 2 Les outils de Business intelligence... 3

Plus en détail

RAPPORT DE PROJET DATA MINING

RAPPORT DE PROJET DATA MINING DEA 127 : INFORMATIQUE SYSTEMES INTELLIGENTS RAPPORT DE PROJET DATA MINING «Analyse des endettements par niveau de développement des pays» Réalisé par : BELEM MAHAMADOU Sous la direction de : M. EDWIN

Plus en détail

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE Annexe MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE L enseignement des mathématiques au collège et au lycée a pour but de donner à chaque

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif

Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA INTELLIGENCE Expérience informationnelle

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Fouille de données de mobilité

Fouille de données de mobilité Fouille de données de mobilité Thomas Devogele Université François Rabelais (Tours) thomas.devogele@univ-tours.fr Laurent Etienne Ecole Navale (Brest) Laurent.etienne@ecole-navale.fr La fouille de donnée

Plus en détail

Surabondance d information

Surabondance d information Surabondance d information Comment le manager d'entreprise d'assurance peut-il en tirer profit pour définir les stratégies gagnantes de demain dans un marché toujours plus exigeant Petit-déjeuner du 25/09/2013

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail