Introduction au datamining

Dimension: px
Commencer à balayer dès la page:

Download "Introduction au datamining"

Transcription

1 Introduction au datamining Patrick Naïm janvier 2005

2 Définition

3 Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des conclusions inexactes Exemple célèbre : parapyschologie Quelle est la définition du datamining? Procédons de façon inductive

4 Définitions du datamining «Le datamining est le procédé qui consiste à découvrir des corrélations nouvelles et utiles, des régularités et des tendances en explorant de grands volumes de données stockées à l aide de techniques statistiques, mathématiques, ou issues de la reconnaissance de formes.» (Gartner Group) «Ensemble de techniques permettant d extraire des modèles d une base de données historisées par raisonnement statistique (déduction on induction approchées) afin de décrire le comportement actuel et/ou de prédire le comportement futur d un procédé.» (Georges Gardarin, PRISM) «Le datamining est l extraction d informations de grandes bases de données. Il s agit du processus de présentation automatique de règles à des opérateurs qualifiés, pour examen. Ici l humain joue un rôle essentiel car lui seul peut décider de l intérêt d une règle pour l entreprise» (IBM) «Le datamining est un processus d analyse fine et intelligente des données détaillées, interactif et itératif, permettant aux managers d activités utilisant ce processus de prendre des décisions et de mettre en place des actions sur mesure dans l intérêt de l activité dont ils ont la charge et de l entreprise pour laquelle ils travaillent» (Michel Jambu, CNET, France Telecom) «[Le datamining] est le processus non automatique de recherche dans les données de régularités a priori inconnues, stables, utiles, et interprétables» [1](Fayyad, Piatetsky-Shapiro & Smyth,KDD) [1] [Datamining is] the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data

5 Exemples d applications Détection de fraude sur carte bancaire Achats croisés de couches et de bière Classification des objets célestes Localisation de gènes Réduction de coûts des campagnes de mailing Prévision sur les marchés boursiers Détection de fraudes sur les marchés (COB)

6 Segmentation Regrouper les individus en groupes homogènes Classification des objets célestes Identifier des comportements d achat «types» ARTICLES ARTICLES TEMPS TEMPS

7 Association Identifier les proximités entre caractéristiques observées Achats croisés de couches et de bière Détection de fraudes sur les marchés (COB)

8 Classification Expliquer ou prévoir une caractéristique (qualitative) à partir d autres Détection de fraude sur carte bancaire Localisation de gènes Réduction de coûts des campagnes de mailing Sous-entendus Relation explicite Y=F(X) Prévoir X(t), et Y(t+1) Incertitude Y=F(X)+ε

9 Estimation Expliquer ou prévoir une caractéristique (quantitative) à partir d autres Prévision sur les marchés boursiers Prévision de consommation électrique Estimation de la consommation d un client

10 Représentation des données Transformation des données pour en avoir une vision plus synthétique Opérations mathématiques explicites Moyenne des consommations par mois Opérations mathématiques implicites Analyse en composantes principales Visualisation 2D, 3D, réalité virtuelle

11 Caractérisation des applications Organiser et synthétiser Représentation Segmentation Association Modéliser et prévoir Classification Estimation Modélisation descriptive Modélisation prédictive

12 Les problèmes traités par le datamining Datamining Modélisation descriptive Modélisation prédictive Représentation Segmentation Association Classification Estimation

13 La démarche du datamining La connaissance est dans les données C est la démarche de la science expérimentale : modélisation empirique Cette démarche suppose la stabilité des phénomènes : existence de lois Les problèmes portent le plus souvent issues d usages humains : les comportements sont instables Le besoin existe surtout dans les phases d instabilité!!

14 Pourquoi utilise-t-on le datamining? En général, pour fonder une décision économique : Détection de fraude sur carte bancaire Achats croisés de couches et de bière Classification des objets célestes Localisation de gènes Réduction de coûts des campagnes de mailing Prévision sur les marchés boursiers Détection de fraudes sur les marchés (COB) La qualité de la décision est évaluée a posteriori

15 Qualité d une décision Faits A priori : rationnelle Risque Décision Rentabilité? A posteriori : bonne?

16 Notre définition du datamining Dans le cadre d une mission donnée, analyser les données détaillées pertinentes dont on dispose pour en déduire les actions les plus rationnelles, c est-à-dire celles dont la rentabilité sera probablement la meilleure.

17 Motivations

18 Secteurs et applications Télécommunications Banque, Finance, Assurances Grande distribution, VPC, ecommerce Industrie Tourisme, Loisirs Santé, Génétique Industrie pharmaceutique Fidélisation clientèle (churn) Cross-selling, up-selling Détection de fraudes Marketing direct Sécurité etc.

19 Pourquoi le datamining aujourd hui? Environnement technique Plus de données disponibles (puissance des ordinateurs) Développement de l internet Environnement économique Concurrence croissante (dérèglementation des télécommunications) Personnalisation : développement du marketing 1-to-1

20 Cadre théorique

21 La démarche scientifique Deux cadres mathématiques principaux Géométrie Probabilités Ces deux cadres théoriques sont communs avec l analyse de données

22 Cadre géométrique Principe Les données sont représentées dans un espace muni d une métrique Modélisation descriptive Les données sont regroupées en fonction de leur proximité Les conclusions sont tirées par l observateur, sous sa responsabilité Modélisation prédictive Les nouvelles situations sont identifiées aux situations passées les plus proches Outils mathématiques Espaces vectoriels Distance euclidienne Inertie Distances généralisées (dans d autres espaces)

23 Cadre probabiliste Principe Les données sont supposées issues d une distribution jointe non observée La distribution est estimée à partir des données Modélisation descriptive Les données sont résumées par la distribution estimée (dépendances et indépendances) Modélisation prédictive Les conséquences de nouvelles situations sont estimées en probabilité (P(Y )) Outils mathématiques Probabilités Théorie de l estimation

24 Cadre théorique du datamining

25 Les techniques utilisées

26 Techniques utilisées en datamining Plusieurs sources Analyse de données Probabilités / statistiques Théorie de l information Intelligence artificielle Base de données Visualisation

27 Techniques utilisées AD Analyse en composantes principales Analyse discriminante Classification ascendante hiérarchique Intelligence artificielle Réseaux neuronaux, réseaux bayésiens Probabilités, théorie de l information Arbres de décision, réseaux bayésiens Autres Règles d association Filtrage collaboratif

28 Techniques d analyse des données Analyse en Composantes Principales Utilisée pour le prétraitement des données Peut être couplée avec des techniques de segmentation et/ou classification Analyse discriminante Utilisée pour le prétraitement des données Utilisée comme technique de classification

29 Réseaux neuronaux Modélisation du fonctionnement du système nerveux (années 1950) Modèle du neurone Modèle du réseau Modèle de l apprentissage En pratique Technique de régression non linéaire Apprentissage = Minimisation d erreur

30 Réseaux bayésiens Gestion de l incertitude dans les systèmes experts (diagnostic médical) Couplage Théorie des graphes Théorie des probabilités (Bayes) Utilisation Classification = Inférence P(Y X) Modélisation descriptive = Apprentissage P(M D)

31 Arbres de décision La technique la plus classique du datamining Basée sur la théorie de l information Minimisation itérative de l entropie d un ensemble de données Avantages Les modèles obtenus sont représentés sous forme de règles : Si Age>30 et Salaire>2000 alors Classe = 1 Très utile en marketing

32 Filtrage collaboratif Hit parade FILTRAGE COLLABORATIF Individus qui ont vu les mêmes programmes Filtre AUTRE FILTRAGE Individus qui ont le même profil (âge) Hit parade

33 Pratique du datamining

34 Etapes du processus de datamining Collecte des données Nettoyage des données Représentation des données Modélisation Evaluation Suivi et mesure de la dérive

35 1 - Collecte des données Avec la suivante, l étape la plus longue du processus : Sources et formats hétérogènes Jointure Volume Répétabilité La valeur ajoutée est dans l exhaustivité exemple : réclamations clients

36 2 Nettoyage des données Supprimer les valeurs aberrantes Connaissance a priori (Age = 220) Ecrêtage statistique Traiter les valeurs manquantes : Moyenne, moyenne conditionnelle

37 3- Représentation des données Objectif : Obtenir un tableau : Une ligne par observation, Une colonne par variable Difficultés Variables Agrégation (exemple : nombreux produits) Données temporelles Sélection Individus Représentativité

38 4- Modélisation Segmentation des bases Apprentissage, Test, Validation Choix de la technique Fabrication du modèle En général 20% seulement du temps total

39 5 - Evaluation du modèle Performances Précision (base d apprentissage) Stabilité (base de validation) Critère économique (sur les deux bases) Comparaison avec un modèle de référence

40 6 - Suivi et mesure de la dérive Sources d erreur Les modèles réalisés ne sont pas parfaits (univers incomplets) Les relations changent dans le temps Comment décider d où vient l erreur? Définition de critères objectifs pour réviser le modèle

41 Plan des séances suivantes S2 : Rappels mathématiques Cadre géométrique Cadre probabiliste Mesures de performance S3 : Segmentation K-means, CAH, Cartes topologiques S4 : Association Market basket analysis, filtrage collaboratif, réseaux bayésiens S5 : Classification Arbres de décision, réseaux bayésiens S6 : Estimation Réseaux neuronaux

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Le Data Mining Techniques pour exploiter l information. Auteur : Dan Noël Date : 24.04.2009

Le Data Mining Techniques pour exploiter l information. Auteur : Dan Noël Date : 24.04.2009 Le Data Mining Techniques pour exploiter l information Auteur : Dan Noël Date : 24.04.2009 Agenda de la présentation du 26.03.2009 Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Ingénierie d aide à la décision

Ingénierie d aide à la décision Ingénierie d aide à la décision Maria Malek 1 er septembre 2009 1 Objectifs et débouchés Nous proposons dans cette option deux grands axes pour l aide à la décision : 1. La recherche opérationnelle ; 2.

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

SCI03 - Analyse de données expérimentales

SCI03 - Analyse de données expérimentales SCI03 - Analyse de données expérimentales Introduction à la statistique Thierry Denœux 1 1 Université de Technologie de Compiègne tél : 44 96 tdenoeux@hds.utc.fr Automne 2014 Qu est ce que la statistique?

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Analyse de données électroniques et intelligence d affaires

Analyse de données électroniques et intelligence d affaires Analyse de données électroniques et intelligence d affaires Valoriser les données internes et externes 3 avril 2014 Ordre du jour UNE INTRODUCTION À L ANALYSE DE DONNÉES Analyse de données et l intelligence

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

Formation Actuaire Data-Scientist PROGRAMME

Formation Actuaire Data-Scientist PROGRAMME Formation Actuaire Data-Scientist PROGRAMME 15 Septembre 2014 Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 Programme Séance inaugurale : révolu-on numérique besoins des entreprises cadre

Plus en détail

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013 ENSEIGNEMENT ET MONDE PROFESSIONNEL Illustration d un lien fort au travers d un cours de scoring Jean-Philippe KIENNER 7 novembre 2013 CONTEXTE Une bonne insertion professionnelle des étudiants passe par

Plus en détail

COURS DE STATISTIQUES (24h)

COURS DE STATISTIQUES (24h) COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage(4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h) Qu est-ce que la statistique?

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Axe MSA Bilan scientifique et perspectives. ENSM.SE L. Carraro - 17 décembre 07

Axe MSA Bilan scientifique et perspectives. ENSM.SE L. Carraro - 17 décembre 07 Axe MSA Bilan scientifique et perspectives ENSM.SE L. Carraro - 17 décembre 07 17 décembre 07 2 Plan Compétences acquises domaines scientifiques compétences transverses Domaines ou activités accessibles

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Accélérer l agilité de votre site de e-commerce. Cas client

Accélérer l agilité de votre site de e-commerce. Cas client Accélérer l agilité de votre site de e-commerce Cas client L agilité «outillée» devient nécessaire au delà d un certain facteur de complexité (clients x produits) Elevé Nombre de produits vendus Faible

Plus en détail

L élaboration des données de comptabilité annuelle et l analyse économique

L élaboration des données de comptabilité annuelle et l analyse économique L élaboration des données de comptabilité annuelle et l analyse économique Stéphane Gregoir (stephane.gregoir@edhec.edu) Juin 2008 Objectifs Illustrer quelques uns des problèmes que l on peut rencontrer

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry Outils mathématiques pour le datamining http://wwwelsewarefr/univevry Géométrie Distance Distance entre parties Matrice de variance/covariance Inertie Minimisation Probabilités Définition Théorème de Bayes

Plus en détail

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données.

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données. Data Mining = Knowledge Discovery in Databases (KDD) = Fouille de données 1 Définition : Processus ou méthode qui extrait des connaissances «intéressantes» ou des motifs (patterns) à partir d une grande

Plus en détail

TABLE DES MATIÈRES CHAPITRE

TABLE DES MATIÈRES CHAPITRE TABLE DES MATIÈRES CHAPITRE 1 Le pilotage de la performance... 17 I. Du contrôle au pilotage de la performance... 17 A. Le contrôle de gestion traditionnel... 17 B. Le pilotage de la performance... 19

Plus en détail

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre Avant-propos 1. Objectif du livre 17 2. Illustrations des exemples de ce livre 18 2.1 Office 365 comme plateforme technologique pour une digital workplace 18 2.2 SharePoint et Yammer à l honneur 18 3.

Plus en détail

INTRODUCTION AU DATA MINING. Cina MOTAMED

INTRODUCTION AU DATA MINING. Cina MOTAMED INTRODUCTION AU DATA MINING Cina MOTAMED 2 Data Mining : contexte Âge numérique : explosion des volumes de données Transactions commerciales Opérations bancaires Navigation Internet Indicateurs démographiques

Plus en détail

Apprentissage statistique Stratégie du Data-Mining

Apprentissage statistique Stratégie du Data-Mining Apprentissage statistique Stratégie du Data-Mining Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Apprentissage statistique

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

Big Data et Marketing : les competences attendues

Big Data et Marketing : les competences attendues Big Data et Marketing : les competences attendues Laurence Fiévet Responsable Marketing Corporate Oney Banque Accord LA DYNAMIQUE DU MARKETING Selon la définition de Kotler et Dubois, «Le marketing est

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Leçon 4 : Typologie des SI

Leçon 4 : Typologie des SI Leçon 4 : Typologie des SI Typologie des SI Système formel Système informel Typologie des SI Chaque jour au sein d une organisation Le système d info stocke, traie ou restitue des quantités importantes

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Programme détaillé des enseignements

Programme détaillé des enseignements Programme détaillé des enseignements SEMESTRE S1 STATISTIQUES Méthodes d'estimation ponctuelle (méthodes des moments, du maximum de vraisemblances, bayésienne) et par intervalles de confiance. Statistiques

Plus en détail

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE Paul Pașcu, Assist Prof, PhD, Ștefan cel Mare University of Suceava Abstract: This article aims to present a number

Plus en détail

Table des cas d entreprise et enquêtes. Avant-propos Nos choix d adaptation Visite guidée La 4 e édition Remerciements

Table des cas d entreprise et enquêtes. Avant-propos Nos choix d adaptation Visite guidée La 4 e édition Remerciements Table des matières Table des cas d entreprise et enquêtes Avant-propos Nos choix d adaptation Visite guidée La 4 e édition Remerciements xiii xiii xiv xv xv Première partie Les fondements de la comptabilité

Plus en détail

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 Data Mining Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 2 Plan Data mining : définition, utilisations et concepts Wolfram Alpha : extraction de données d'un compte

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif

Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA INTELLIGENCE Expérience informationnelle

Plus en détail

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! "##$ % &!

 # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! ##$ % &! "# $ %%& ' ( )*+, '()*+,'+''-++.+/0112134+1.50*406 "##$ %& 8CC "#$%& ' ( )* +,-./ 0 123 456+7 3 7-55-89.*/ 0 +3 *+:3 ;< =3 3-3 8 0 23 >-8-3 >5? //*/*0;* @A: *53,,3 / * $/ >B+? - 5, 2 34*56 7 /+#** //8

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

Agrégation des portefeuilles de contrats d assurance vie

Agrégation des portefeuilles de contrats d assurance vie Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l

Plus en détail

INTERNATIONAL CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS (ICMPA) UNESCO CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS

INTERNATIONAL CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS (ICMPA) UNESCO CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS INTERNATIONAL CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS (ICMPA) UNESCO CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS established in 2006 at the University of Abomey-Calavi (Republic of Benin) UNITWIN/UNESCO

Plus en détail

Business Intelligence

Business Intelligence Business Intelligence Enjeux, Projets, Données, Indicateurs Gilles FONTANINI g.fontanini@decision-network.eu +33 (0)6 11 21 24 53 2? Gilles Fontanini Consultant et Administrateur d un GIE d experts en

Plus en détail

Approche hybride De la correction des erreurs à la sélection de variables

Approche hybride De la correction des erreurs à la sélection de variables Approche hybride De la correction des erreurs à la sélection de variables G.M. Saulnier 1, W. Castaing 2 1 Laboratoire EDYTEM (UMR 5204, CNRS, Université de Savoie) 2 TENEVIA (http://www.tenevia.com) Projet

Plus en détail

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Université Ibn Zohr Faculté des Sciences Juridiques, Économiques et Sociales Exposé sous le thème : Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Plan : Introduction : L

Plus en détail

Graphes, réseaux et internet

Graphes, réseaux et internet Graphes, réseaux et internet Clémence Magnien clemence.magnien@lip6.fr LIP6 CNRS et Université Pierre et Marie Curie (UPMC Paris 6) avec Matthieu Latapy, Frédéric Ouédraogo, Guillaume Valadon, Assia Hamzaoui,...

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

ANALYSE DU RISQUE DE CRÉDIT

ANALYSE DU RISQUE DE CRÉDIT ANALYSE DU RISQUE DE CRÉDIT Banque & Marchés Cécile Kharoubi Professeur de Finance ESCP Europe Philippe Thomas Professeur de Finance ESCP Europe TABLE DES MATIÈRES Introduction... 15 Chapitre 1 Le risque

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Contributions à l étude des mesures sémantiques

Contributions à l étude des mesures sémantiques Contributions à l étude des mesures sémantiques École des mines d Alès Sébastien Harispe Plan Contributions à l étude des mesures sémantiques Estimation d IC par les fonctions de croyance Plan Contributions

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

SOMMAIRE. Présentation 3. Marketing de l offre 15 Marketing de la demande 16 Marketing de l échange 16

SOMMAIRE. Présentation 3. Marketing de l offre 15 Marketing de la demande 16 Marketing de l échange 16 Présentation 3 Chapitre 1 Le concept de marketing 15 1 Définitions 15 Marketing de l offre 15 Marketing de la demande 16 Marketing de l échange 16 2 Principaux outils du marketing 16 3 Les critiques envers

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Présentation de l épreuve

Présentation de l épreuve MÉTHODO Présentation de l épreuve 1. Programme de l arrêté du 22 décembre 2006 DURÉE DE L ENSEIGNEMENT ÉPREUVE N 11 CONTRÔLE DE GESTION (à titre indicatif) : 210 heures 18 crédits européens 1. Positionnement

Plus en détail

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage,

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage, SYNTHÈSE DU CHAPITRE 11 : LA SEGMENTATION DE LA DEMANDE. La segmentation. La segmentation de la demande consiste à définir des groupes de clients (des segments de clientèle) ayant des comportements homogènes

Plus en détail

Vous trouvez plus d information sur AREL. ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html

Vous trouvez plus d information sur AREL. ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html Option Deux thèmes : La recherche opérationnelle : Traiter des problèmes d optimisation, d aide à la décision et d évaluation de performances

Plus en détail

Crédit Bureaux. des PME. Alger, le 12 mars 2009 Margherita GALLARELLO

Crédit Bureaux. des PME. Alger, le 12 mars 2009 Margherita GALLARELLO Le rôle des Crédit Bureaux pour l accès au crédit des PME 2009 Agenda L activité des Crédit Bureaux Sujets critiques pour les PME Crédit Bureaux: quels avantages pour les PME? Exemple d évaluation Conclusion

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

Analyse de données longitudinales continues avec applications

Analyse de données longitudinales continues avec applications Université de Liège Département de Mathématique 29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS 1 Programme 1. Introduction 2. Exemples 3. Méthodes simples 4.

Plus en détail

Introduction à l analyse des données. Olivier Godechot

Introduction à l analyse des données. Olivier Godechot Introduction à l analyse des données Olivier Godechot Introduction. Les données statistiques : de très nombreuses variables. Aucune n est parfaite La perception d un phénomène appréhendée comme la combinaison

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT POLYTECH'MONTPELLIER IG 5

FOUILLE DE DONNEES. Anne LAURENT POLYTECH'MONTPELLIER IG 5 FOUILLE DE DONNEES Anne LAURENT POLYTECH'MONTPELLIER IG 5 Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce

Plus en détail

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé Glossaire Analyse en Composantes Principales (ACP) : *méthode factorielle (Pearson 1901, Hotelling 1933) permettant de fournir un résumé descriptif (sous forme graphique le plus souvent) d une population

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

L ANALYSE DES DONNÉES CLIENTS AU SERVICE DE LA PRÉVISION D ACHAT DE VOYAGES

L ANALYSE DES DONNÉES CLIENTS AU SERVICE DE LA PRÉVISION D ACHAT DE VOYAGES L ANALYSE DES DONNÉES CLIENTS AU SERVICE DE LA PRÉVISION D ACHAT DE VOYAGES SAS 3 DEC 2015 1 sur 9 TRANSAT Un voyagiste international solidement installé au Canada, en France et au Royaume-Uni, qui offre

Plus en détail

ICHEC MANAGEMENT SCHOOL

ICHEC MANAGEMENT SCHOOL CASE TELECOMMUNICATION - MOBISTAR BUSINESS CASE TELECOMMUNICATIONS - MOBISTAR Defort Florence De Veyt Marie-Laure Dierickx Arnaud Leruite Julien Marlot Camille ICHEC MANAGEMENT SCHOOL MOBISTAR, EN ROUTE

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Acteos Points de Vente Acteos PPS

Acteos Points de Vente Acteos PPS Acteos Points de Vente Acteos PPS Christian Zelle Directeur R&D, Acteos 06.05.2010 1 Agenda Motivation ACTEOS PPS La solution ACTEOS PPS ACTEOS PPS dans le contexte du «Flowcasting» 2 Motivation Les problématiques

Plus en détail

Concours interne de l agrégation du second degré. Section économie et gestion. Programme de la session 2013

Concours interne de l agrégation du second degré. Section économie et gestion. Programme de la session 2013 Concours interne de l agrégation du second degré Concours interne d accès à l échelle de rémunération des professeurs agrégés dans les établissements d enseignement privés sous contrat du second degré

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Les techniques d exploitation de données (Data Mining)

Les techniques d exploitation de données (Data Mining) Les techniques d exploitation de données (Data Mining) 1 Présenté par : Emer Mestiri, M.sc Finance, Data Scientist Conseiller Gestion de risque de crédit, Mouvement Desjardins Sommaire 2 I. Logiciel SAS

Plus en détail

Anne-lise HUYET- Jean-Luc PARIS LIMOS équipe Recherche en Systèmes de Production IFMA Mail: huyet@ifma.fr, paris@ifma.fr

Anne-lise HUYET- Jean-Luc PARIS LIMOS équipe Recherche en Systèmes de Production IFMA Mail: huyet@ifma.fr, paris@ifma.fr Extraction de Connaissances pertinentes sur le comportement des systèmes de production: une approche conjointe par Optimisation Évolutionniste via Simulation et Apprentissage Anne-lise HUYET- Jean-Luc

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Journée de rencontres ANSES - IGN - INA - Labex Bézout

Journée de rencontres ANSES - IGN - INA - Labex Bézout Journée de rencontres ANSES - IGN - INA - Labex Bézout Présentation du LAMA Stéphane Sabourau 3 mars 2014 Présentation générale Le Laboratoire d Analyse et Mathématiques Appliquées (LAMA) est composé de

Plus en détail

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques.

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques. L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques 1 BUTS DU COURS : se familiariser avec le vocabulaire statistique o variable dépendante, variable indépendante o statistique descriptive,

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Présentation de l auteur En charge de la statistique et du data mining dans un grand groupe bancaire Enseigne le data mining en Master 2 dans

Plus en détail

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux Plan Motivations Débouchés Formation UVs spécifiques UVs connexes Enseignants et partenaires Motivations de la filière fouille de données

Plus en détail

Caractérisation des composantes constitutives de la courbe de charge électrique cas du secteur résidentiel

Caractérisation des composantes constitutives de la courbe de charge électrique cas du secteur résidentiel Caractérisation des composantes constitutives de la courbe de charge électrique cas du secteur résidentiel Mabrouka El Guedri (Thèse CIFRE) G. Fleury : directeur de thèse C. Lajaunie : co-directeur de

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif

Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif 1 Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif Narration pour présentation Prezi (http://prezi.com/5tjog4mzpuhh/analyse-de-donneestextuelles-analyse-de-contenu-qualitative/)

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

TABLEAU DE BORD : SYSTEME D INFORMATION ET OUTIL DE PILOTAGE DE LA PERFOMANCE

TABLEAU DE BORD : SYSTEME D INFORMATION ET OUTIL DE PILOTAGE DE LA PERFOMANCE TABLEAU DE BORD : SYSTEME D INFORMATION ET OUTIL DE PILOTAGE DE LA PERFOMANCE INTRODUCTION GENERALE La situation concurrentielle des dernières années a confronté les entreprises à des problèmes économiques.

Plus en détail

Partie I Stratégies relationnelles et principes d organisation... 23

Partie I Stratégies relationnelles et principes d organisation... 23 Introduction......................................................................... 1 1. Définition........................................................................ 2 1.1 Le CRM comme processus

Plus en détail

LES TYPOLOGIES DE PARCOURS METHODES ET USAGES. Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr

LES TYPOLOGIES DE PARCOURS METHODES ET USAGES. Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr LES TYPOLOGIES DE PARCOURS METHODES ET USAGES Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr 1 PLAN Première partie : un exemple traité «en vraie grandeur» : les 26500 jeunes

Plus en détail

Utilisations des mathématiques à des fins opérationnelles

Utilisations des mathématiques à des fins opérationnelles Utilisations des mathématiques à des fins opérationnelles Michael Vandenbossche mvn@softcomputing.com Soft Computing 165 avenue de Bretagne 59000 Lille 1. Présentation 2. Indicateurs statistiques de base

Plus en détail

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.

Plus en détail