Introduction au datamining

Dimension: px
Commencer à balayer dès la page:

Download "Introduction au datamining"

Transcription

1 Introduction au datamining Patrick Naïm janvier 2005

2 Définition

3 Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des conclusions inexactes Exemple célèbre : parapyschologie Quelle est la définition du datamining? Procédons de façon inductive

4 Définitions du datamining «Le datamining est le procédé qui consiste à découvrir des corrélations nouvelles et utiles, des régularités et des tendances en explorant de grands volumes de données stockées à l aide de techniques statistiques, mathématiques, ou issues de la reconnaissance de formes.» (Gartner Group) «Ensemble de techniques permettant d extraire des modèles d une base de données historisées par raisonnement statistique (déduction on induction approchées) afin de décrire le comportement actuel et/ou de prédire le comportement futur d un procédé.» (Georges Gardarin, PRISM) «Le datamining est l extraction d informations de grandes bases de données. Il s agit du processus de présentation automatique de règles à des opérateurs qualifiés, pour examen. Ici l humain joue un rôle essentiel car lui seul peut décider de l intérêt d une règle pour l entreprise» (IBM) «Le datamining est un processus d analyse fine et intelligente des données détaillées, interactif et itératif, permettant aux managers d activités utilisant ce processus de prendre des décisions et de mettre en place des actions sur mesure dans l intérêt de l activité dont ils ont la charge et de l entreprise pour laquelle ils travaillent» (Michel Jambu, CNET, France Telecom) «[Le datamining] est le processus non automatique de recherche dans les données de régularités a priori inconnues, stables, utiles, et interprétables» [1](Fayyad, Piatetsky-Shapiro & Smyth,KDD) [1] [Datamining is] the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data

5 Exemples d applications Détection de fraude sur carte bancaire Achats croisés de couches et de bière Classification des objets célestes Localisation de gènes Réduction de coûts des campagnes de mailing Prévision sur les marchés boursiers Détection de fraudes sur les marchés (COB)

6 Segmentation Regrouper les individus en groupes homogènes Classification des objets célestes Identifier des comportements d achat «types» ARTICLES ARTICLES TEMPS TEMPS

7 Association Identifier les proximités entre caractéristiques observées Achats croisés de couches et de bière Détection de fraudes sur les marchés (COB)

8 Classification Expliquer ou prévoir une caractéristique (qualitative) à partir d autres Détection de fraude sur carte bancaire Localisation de gènes Réduction de coûts des campagnes de mailing Sous-entendus Relation explicite Y=F(X) Prévoir X(t), et Y(t+1) Incertitude Y=F(X)+ε

9 Estimation Expliquer ou prévoir une caractéristique (quantitative) à partir d autres Prévision sur les marchés boursiers Prévision de consommation électrique Estimation de la consommation d un client

10 Représentation des données Transformation des données pour en avoir une vision plus synthétique Opérations mathématiques explicites Moyenne des consommations par mois Opérations mathématiques implicites Analyse en composantes principales Visualisation 2D, 3D, réalité virtuelle

11 Caractérisation des applications Organiser et synthétiser Représentation Segmentation Association Modéliser et prévoir Classification Estimation Modélisation descriptive Modélisation prédictive

12 Les problèmes traités par le datamining Datamining Modélisation descriptive Modélisation prédictive Représentation Segmentation Association Classification Estimation

13 La démarche du datamining La connaissance est dans les données C est la démarche de la science expérimentale : modélisation empirique Cette démarche suppose la stabilité des phénomènes : existence de lois Les problèmes portent le plus souvent issues d usages humains : les comportements sont instables Le besoin existe surtout dans les phases d instabilité!!

14 Pourquoi utilise-t-on le datamining? En général, pour fonder une décision économique : Détection de fraude sur carte bancaire Achats croisés de couches et de bière Classification des objets célestes Localisation de gènes Réduction de coûts des campagnes de mailing Prévision sur les marchés boursiers Détection de fraudes sur les marchés (COB) La qualité de la décision est évaluée a posteriori

15 Qualité d une décision Faits A priori : rationnelle Risque Décision Rentabilité? A posteriori : bonne?

16 Notre définition du datamining Dans le cadre d une mission donnée, analyser les données détaillées pertinentes dont on dispose pour en déduire les actions les plus rationnelles, c est-à-dire celles dont la rentabilité sera probablement la meilleure.

17 Motivations

18 Secteurs et applications Télécommunications Banque, Finance, Assurances Grande distribution, VPC, ecommerce Industrie Tourisme, Loisirs Santé, Génétique Industrie pharmaceutique Fidélisation clientèle (churn) Cross-selling, up-selling Détection de fraudes Marketing direct Sécurité etc.

19 Pourquoi le datamining aujourd hui? Environnement technique Plus de données disponibles (puissance des ordinateurs) Développement de l internet Environnement économique Concurrence croissante (dérèglementation des télécommunications) Personnalisation : développement du marketing 1-to-1

20 Cadre théorique

21 La démarche scientifique Deux cadres mathématiques principaux Géométrie Probabilités Ces deux cadres théoriques sont communs avec l analyse de données

22 Cadre géométrique Principe Les données sont représentées dans un espace muni d une métrique Modélisation descriptive Les données sont regroupées en fonction de leur proximité Les conclusions sont tirées par l observateur, sous sa responsabilité Modélisation prédictive Les nouvelles situations sont identifiées aux situations passées les plus proches Outils mathématiques Espaces vectoriels Distance euclidienne Inertie Distances généralisées (dans d autres espaces)

23 Cadre probabiliste Principe Les données sont supposées issues d une distribution jointe non observée La distribution est estimée à partir des données Modélisation descriptive Les données sont résumées par la distribution estimée (dépendances et indépendances) Modélisation prédictive Les conséquences de nouvelles situations sont estimées en probabilité (P(Y )) Outils mathématiques Probabilités Théorie de l estimation

24 Cadre théorique du datamining

25 Les techniques utilisées

26 Techniques utilisées en datamining Plusieurs sources Analyse de données Probabilités / statistiques Théorie de l information Intelligence artificielle Base de données Visualisation

27 Techniques utilisées AD Analyse en composantes principales Analyse discriminante Classification ascendante hiérarchique Intelligence artificielle Réseaux neuronaux, réseaux bayésiens Probabilités, théorie de l information Arbres de décision, réseaux bayésiens Autres Règles d association Filtrage collaboratif

28 Techniques d analyse des données Analyse en Composantes Principales Utilisée pour le prétraitement des données Peut être couplée avec des techniques de segmentation et/ou classification Analyse discriminante Utilisée pour le prétraitement des données Utilisée comme technique de classification

29 Réseaux neuronaux Modélisation du fonctionnement du système nerveux (années 1950) Modèle du neurone Modèle du réseau Modèle de l apprentissage En pratique Technique de régression non linéaire Apprentissage = Minimisation d erreur

30 Réseaux bayésiens Gestion de l incertitude dans les systèmes experts (diagnostic médical) Couplage Théorie des graphes Théorie des probabilités (Bayes) Utilisation Classification = Inférence P(Y X) Modélisation descriptive = Apprentissage P(M D)

31 Arbres de décision La technique la plus classique du datamining Basée sur la théorie de l information Minimisation itérative de l entropie d un ensemble de données Avantages Les modèles obtenus sont représentés sous forme de règles : Si Age>30 et Salaire>2000 alors Classe = 1 Très utile en marketing

32 Filtrage collaboratif Hit parade FILTRAGE COLLABORATIF Individus qui ont vu les mêmes programmes Filtre AUTRE FILTRAGE Individus qui ont le même profil (âge) Hit parade

33 Pratique du datamining

34 Etapes du processus de datamining Collecte des données Nettoyage des données Représentation des données Modélisation Evaluation Suivi et mesure de la dérive

35 1 - Collecte des données Avec la suivante, l étape la plus longue du processus : Sources et formats hétérogènes Jointure Volume Répétabilité La valeur ajoutée est dans l exhaustivité exemple : réclamations clients

36 2 Nettoyage des données Supprimer les valeurs aberrantes Connaissance a priori (Age = 220) Ecrêtage statistique Traiter les valeurs manquantes : Moyenne, moyenne conditionnelle

37 3- Représentation des données Objectif : Obtenir un tableau : Une ligne par observation, Une colonne par variable Difficultés Variables Agrégation (exemple : nombreux produits) Données temporelles Sélection Individus Représentativité

38 4- Modélisation Segmentation des bases Apprentissage, Test, Validation Choix de la technique Fabrication du modèle En général 20% seulement du temps total

39 5 - Evaluation du modèle Performances Précision (base d apprentissage) Stabilité (base de validation) Critère économique (sur les deux bases) Comparaison avec un modèle de référence

40 6 - Suivi et mesure de la dérive Sources d erreur Les modèles réalisés ne sont pas parfaits (univers incomplets) Les relations changent dans le temps Comment décider d où vient l erreur? Définition de critères objectifs pour réviser le modèle

41 Plan des séances suivantes S2 : Rappels mathématiques Cadre géométrique Cadre probabiliste Mesures de performance S3 : Segmentation K-means, CAH, Cartes topologiques S4 : Association Market basket analysis, filtrage collaboratif, réseaux bayésiens S5 : Classification Arbres de décision, réseaux bayésiens S6 : Estimation Réseaux neuronaux

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Ingénierie d aide à la décision

Ingénierie d aide à la décision Ingénierie d aide à la décision Maria Malek 1 er septembre 2009 1 Objectifs et débouchés Nous proposons dans cette option deux grands axes pour l aide à la décision : 1. La recherche opérationnelle ; 2.

Plus en détail

Le Data Mining Techniques pour exploiter l information. Auteur : Dan Noël Date : 24.04.2009

Le Data Mining Techniques pour exploiter l information. Auteur : Dan Noël Date : 24.04.2009 Le Data Mining Techniques pour exploiter l information Auteur : Dan Noël Date : 24.04.2009 Agenda de la présentation du 26.03.2009 Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé Glossaire Analyse en Composantes Principales (ACP) : *méthode factorielle (Pearson 1901, Hotelling 1933) permettant de fournir un résumé descriptif (sous forme graphique le plus souvent) d une population

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT POLYTECH'MONTPELLIER IG 5

FOUILLE DE DONNEES. Anne LAURENT POLYTECH'MONTPELLIER IG 5 FOUILLE DE DONNEES Anne LAURENT POLYTECH'MONTPELLIER IG 5 Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce

Plus en détail

Extraction de Connaissances Avancées

Extraction de Connaissances Avancées 1 Extraction de Connaissances Avancées Maguelonne Teisseire TETIS Irstea teisseire@teledetection.fr http://www.lirmm.fr/~teisseir Organisation o Planning http://www.lirmm.fr/~aze/gmin313.html o Les intervenants

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

SCI03 - Analyse de données expérimentales

SCI03 - Analyse de données expérimentales SCI03 - Analyse de données expérimentales Introduction à la statistique Thierry Denœux 1 1 Université de Technologie de Compiègne tél : 44 96 tdenoeux@hds.utc.fr Automne 2014 Qu est ce que la statistique?

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Leçon 4 : Typologie des SI

Leçon 4 : Typologie des SI Leçon 4 : Typologie des SI Typologie des SI Système formel Système informel Typologie des SI Chaque jour au sein d une organisation Le système d info stocke, traie ou restitue des quantités importantes

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry Outils mathématiques pour le datamining http://wwwelsewarefr/univevry Géométrie Distance Distance entre parties Matrice de variance/covariance Inertie Minimisation Probabilités Définition Théorème de Bayes

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

INTRODUCTION AU DATA MINING. Cina MOTAMED

INTRODUCTION AU DATA MINING. Cina MOTAMED INTRODUCTION AU DATA MINING Cina MOTAMED 2 Data Mining : contexte Âge numérique : explosion des volumes de données Transactions commerciales Opérations bancaires Navigation Internet Indicateurs démographiques

Plus en détail

L élaboration des données de comptabilité annuelle et l analyse économique

L élaboration des données de comptabilité annuelle et l analyse économique L élaboration des données de comptabilité annuelle et l analyse économique Stéphane Gregoir (stephane.gregoir@edhec.edu) Juin 2008 Objectifs Illustrer quelques uns des problèmes que l on peut rencontrer

Plus en détail

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données.

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données. Data Mining = Knowledge Discovery in Databases (KDD) = Fouille de données 1 Définition : Processus ou méthode qui extrait des connaissances «intéressantes» ou des motifs (patterns) à partir d une grande

Plus en détail

Axe MSA Bilan scientifique et perspectives. ENSM.SE L. Carraro - 17 décembre 07

Axe MSA Bilan scientifique et perspectives. ENSM.SE L. Carraro - 17 décembre 07 Axe MSA Bilan scientifique et perspectives ENSM.SE L. Carraro - 17 décembre 07 17 décembre 07 2 Plan Compétences acquises domaines scientifiques compétences transverses Domaines ou activités accessibles

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Big Data et Marketing : les competences attendues

Big Data et Marketing : les competences attendues Big Data et Marketing : les competences attendues Laurence Fiévet Responsable Marketing Corporate Oney Banque Accord LA DYNAMIQUE DU MARKETING Selon la définition de Kotler et Dubois, «Le marketing est

Plus en détail

Les techniques d exploitation de données (Data Mining)

Les techniques d exploitation de données (Data Mining) Les techniques d exploitation de données (Data Mining) 1 Présenté par : Emer Mestiri, M.sc Finance, Data Scientist Conseiller Gestion de risque de crédit, Mouvement Desjardins Sommaire 2 I. Logiciel SAS

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Programme détaillé des enseignements

Programme détaillé des enseignements Programme détaillé des enseignements SEMESTRE S1 STATISTIQUES Méthodes d'estimation ponctuelle (méthodes des moments, du maximum de vraisemblances, bayésienne) et par intervalles de confiance. Statistiques

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif

Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA INTELLIGENCE Expérience informationnelle

Plus en détail

INTERNATIONAL CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS (ICMPA) UNESCO CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS

INTERNATIONAL CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS (ICMPA) UNESCO CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS INTERNATIONAL CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS (ICMPA) UNESCO CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS established in 2006 at the University of Abomey-Calavi (Republic of Benin) UNITWIN/UNESCO

Plus en détail

Les clients puissance cube

Les clients puissance cube LETTRE CONVERGENCE Les clients puissance cube L intelligence artificielle au service du marketing des services N 28 To get there. Together. A PROPOS DE BEARINGPOINT BearingPoint est un cabinet de conseil

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

Formation Actuaire Data-Scientist PROGRAMME

Formation Actuaire Data-Scientist PROGRAMME Formation Actuaire Data-Scientist PROGRAMME 15 Septembre 2014 Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 Programme Séance inaugurale : révolu-on numérique besoins des entreprises cadre

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! "##$ % &!

 # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! ##$ % &! "# $ %%& ' ( )*+, '()*+,'+''-++.+/0112134+1.50*406 "##$ %& 8CC "#$%& ' ( )* +,-./ 0 123 456+7 3 7-55-89.*/ 0 +3 *+:3 ;< =3 3-3 8 0 23 >-8-3 >5? //*/*0;* @A: *53,,3 / * $/ >B+? - 5, 2 34*56 7 /+#** //8

Plus en détail

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC)

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC) L3 Géographie UE Méthodologie Statistiques COURS 1 Salle 125 Intervenants : Nadège Martiny & Julien Crétat UFR Sciences Humaines (Département de Géographie) UMR Centre de Recherches de Climatologie (CRC)

Plus en détail

COURS DE STATISTIQUES (24h)

COURS DE STATISTIQUES (24h) COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage(4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h) Qu est-ce que la statistique?

Plus en détail

Le data mining met en œuvre un ensemble de techniques issues des statistiques, de l analyse de données et de l informatique pour explorer les données.

Le data mining met en œuvre un ensemble de techniques issues des statistiques, de l analyse de données et de l informatique pour explorer les données. COURS DE DATA MINING 3 : MODELISATION PRESENTATION GENERALE EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET Phase 4 : Modelisation 1 Classement des techniques

Plus en détail

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Université Ibn Zohr Faculté des Sciences Juridiques, Économiques et Sociales Exposé sous le thème : Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Plan : Introduction : L

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013 ENSEIGNEMENT ET MONDE PROFESSIONNEL Illustration d un lien fort au travers d un cours de scoring Jean-Philippe KIENNER 7 novembre 2013 CONTEXTE Une bonne insertion professionnelle des étudiants passe par

Plus en détail

Apprentissage Statistique. Bureau d étude :

Apprentissage Statistique. Bureau d étude : Apprentissage Statistique Bureau d étude : Score d appétence en GRC Hélène Milhem IUP SID M2 2011/2012 Institut de Mathématiques de Toulouse UMR CNRS C5219 Equipe de Statistique et Probabilités Université

Plus en détail

Graphes, réseaux et internet

Graphes, réseaux et internet Graphes, réseaux et internet Clémence Magnien clemence.magnien@lip6.fr LIP6 CNRS et Université Pierre et Marie Curie (UPMC Paris 6) avec Matthieu Latapy, Frédéric Ouédraogo, Guillaume Valadon, Assia Hamzaoui,...

Plus en détail

Introduction à La Fouille de Données. Khai thác dữ liệu. Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker

Introduction à La Fouille de Données. Khai thác dữ liệu. Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker 1 /81 Cours IFI M1 Data Mining Introduction à La Fouille de Données Khai thác dữ liệu Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker Chercheur de l IRD à UMMISCO (Modélisation Mathématiques

Plus en détail

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h I.U.T de Caen STID 2ème année Département STID Année Universitaire 2002-2003 Responsable de cours : Alain LUCAS Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera

Plus en détail

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Analyse de données électroniques et intelligence d affaires

Analyse de données électroniques et intelligence d affaires Analyse de données électroniques et intelligence d affaires Valoriser les données internes et externes 3 avril 2014 Ordre du jour UNE INTRODUCTION À L ANALYSE DE DONNÉES Analyse de données et l intelligence

Plus en détail

Vous trouvez plus d information sur AREL. ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html

Vous trouvez plus d information sur AREL. ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html Option Deux thèmes : La recherche opérationnelle : Traiter des problèmes d optimisation, d aide à la décision et d évaluation de performances

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

Accélérer l agilité de votre site de e-commerce. Cas client

Accélérer l agilité de votre site de e-commerce. Cas client Accélérer l agilité de votre site de e-commerce Cas client L agilité «outillée» devient nécessaire au delà d un certain facteur de complexité (clients x produits) Elevé Nombre de produits vendus Faible

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

Journées d Eté Statistiques et Data Mining Le Croisic, du 29 juin au 03 juillet 2015

Journées d Eté Statistiques et Data Mining Le Croisic, du 29 juin au 03 juillet 2015 ournées d té tatistiques et Data ining Le roisic, du 29 juin au 03 juillet 2015 Nos 8 èmes ournées d té vous offrent la possibilité de construire votre programme personnalisé de formation en tatistiques

Plus en détail

Utilisations des mathématiques à des fins opérationnelles

Utilisations des mathématiques à des fins opérationnelles Utilisations des mathématiques à des fins opérationnelles Michael Vandenbossche mvn@softcomputing.com Soft Computing 165 avenue de Bretagne 59000 Lille 1. Présentation 2. Indicateurs statistiques de base

Plus en détail

UNIVERSITÉ PARIS DESCARTES

UNIVERSITÉ PARIS DESCARTES UNIVERSITÉ PARIS DESCARTES MASTER Domaine DROIT, ÉCONOMIE, GESTION Mention MONNAIE,BANQUE, FINANCE, ASSURANCE Spécialité RISQUE, ASSURANCE, DÉCISION 2014 / 2015 Z.Trocellier Directeurs Pr Kouroche VAFAÏ

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

11. Evaluation de la qualité des essais

11. Evaluation de la qualité des essais 11. Evaluation de la qualité des essais L évaluation de la qualité méthodologique d un essai thérapeutique est une tâche difficile [117]. L essai thérapeutique contrôlé randomisé est considéré comme étant

Plus en détail

INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET

INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Introduction 3 Qu est-ce que le data mining... 3 Fantasmes

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Réseaux bayésiens. 3 e édition Patrick Naïm, Pierre-Henri Wuillemin, Philippe Leray, Olivier Pourret, Anna Becker

Réseaux bayésiens. 3 e édition Patrick Naïm, Pierre-Henri Wuillemin, Philippe Leray, Olivier Pourret, Anna Becker Réseaux bayésiens 3 e édition Patrick Naïm, Pierre-Henri Wuillemin, Philippe Leray, Olivier Pourret, Anna Becker Avec la contribution de Bruce G. Marcot, Carmen Lacave et Francisco J. Díez Groupe Eyrolles,

Plus en détail

MATHÉMATIQUES ET SCIENCES HUMAINES

MATHÉMATIQUES ET SCIENCES HUMAINES MATHÉMATIQUES ET SCIENCES HUMAINES J. P. FENELON L école d été du C.N.R.S. sur l analyse des données Mathématiques et sciences humaines, tome 70 (1980), p. 69-75.

Plus en détail

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE Paul Pașcu, Assist Prof, PhD, Ștefan cel Mare University of Suceava Abstract: This article aims to present a number

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Présentation de l auteur En charge de la statistique et du data mining dans un grand groupe bancaire Enseigne le data mining en Master 2 dans

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Introduction à l analyse des données. Olivier Godechot

Introduction à l analyse des données. Olivier Godechot Introduction à l analyse des données Olivier Godechot Introduction. Les données statistiques : de très nombreuses variables. Aucune n est parfaite La perception d un phénomène appréhendée comme la combinaison

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Rentabilisez vos actions de communication

Rentabilisez vos actions de communication Michel Hugues Rentabilisez vos actions de communication Préface de Gérard Noël Vice-président-directeur général de l UDA, 2002 ISBN : 2-7081-2797-7 Sommaire Préface... IX Introduction... 1 Chapitre I Que

Plus en détail

Ce qu est le Data Mining

Ce qu est le Data Mining Data Mining 1 Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD

Plus en détail

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE SûretéGlobale.Org La Guitonnière 49770 La Meignanne Téléphone : +33 241 777 886 Télécopie : +33 241 200 987 Portable : +33 6 83 01 01 80 Adresse de messagerie : c.courtois@sureteglobale.org APPORT DES

Plus en détail

l Intelligence Artificielle

l Intelligence Artificielle 1 Introduction à l Intelligence Artificielle Antoine Cornuéjols antoine@lri.fr http://www.iie.cnam.fr/~cornuejols/ I.I.E. & L.R.I., Université d Orsay Intelligence Artificielle : plan 2 1-2- 3-4- 5-6-

Plus en détail

Analyse Quantitative et Qualitative de données textuelles. Normand Péladeau, Ph.D. Président Recherches Provalis

Analyse Quantitative et Qualitative de données textuelles. Normand Péladeau, Ph.D. Président Recherches Provalis Analyse Quantitative et Qualitative de données textuelles Normand Péladeau, Ph.D. Président Recherches Provalis Les Produits de Recherches Provalis SIMSTAT (1989) Analyses Statistiques Simstat v2.5 Les

Plus en détail

Acteos Points de Vente Acteos PPS

Acteos Points de Vente Acteos PPS Acteos Points de Vente Acteos PPS Christian Zelle Directeur R&D, Acteos 06.05.2010 1 Agenda Motivation ACTEOS PPS La solution ACTEOS PPS ACTEOS PPS dans le contexte du «Flowcasting» 2 Motivation Les problématiques

Plus en détail

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Méthodes d apprentissage statistique («Machine Learning»)

Méthodes d apprentissage statistique («Machine Learning») Méthodes d apprentissage statistique («Machine Learning») Journées d Etudes IARD Niort, 21 Mars 2014 Fabrice TAILLIEU Sébastien DELUCINGE Rémi BELLINA 2014 Milliman. All rights reserved Sommaire Introduction

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Business Intelligence avec Excel, Power BI et Office 365

Business Intelligence avec Excel, Power BI et Office 365 Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10

Plus en détail

Workflow/DataWarehouse/DataMining. 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1

Workflow/DataWarehouse/DataMining. 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1 Workflow/DataWarehouse/DataMining 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1 plan Workflow DataWarehouse Aide à la décision DataMinig Conclusion 14-09-98 LORIA

Plus en détail

Apprentissage statistique:

Apprentissage statistique: Apprentissage statistique: Arbre de décision binaire et Random Forest 1 Plan 1. Introduction 2. 3. Application à l apprentissage supervisé 4. Forêt Aléatoire (Random Forest) 2 1 Plan 1. Introduction 2.

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 Data Mining Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 2 Plan Data mining : définition, utilisations et concepts Wolfram Alpha : extraction de données d'un compte

Plus en détail