Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Dimension: px
Commencer à balayer dès la page:

Download "Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto."

Transcription

1 des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne /65

2 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65

3 des des Définition générale Le data mining est l ensemble des algorithmes et méthodes : destinés à l exploration et à l analyse, pour de grandes bases de informatiques, sans a priori. Le data mining permet la détection dans les : de règles, d associations, de tendances inconnues, de structures particulières, restituant l information utile, tout en réduisant la quantité de. 3/65 pour l aide à la.

4 Objectif des des On ne veut plus seulement savoir : Combien de clients ont acheté tel produit pendant telle période? Mais : Quel est le profil des clients? Quels autres produits les intéresseront? Quand seront-ils intéressés? 4/65

5 Des statistiques... des des 5/65 Statistiques : Quelques centaines d individus. Quelques variables recueillies avec un protocole spécial (échantillonnage, plan d expérience). Hypothèses fortes (à priori) sur les lois statistiques suivies. Analyse de : Quelques milliers d individus. Plusieurs dizaines de variables. Construction de tableaux Individus Variables. Importance de la représentation visuelle.

6 des des 6/65 Contexte actuel : Quelques millions d individus. Quelques centaines de variables.... au data mining. De nombreux types de variables (numériques ou symboliques). Données recueillies souvent avant l étude et à d autres fins. Mise en œuvre de calculs rapides. Nouvel objectif : On ne cherche pas toujours l optimum mathématique. On recherche le modèle le plus facile à appréhender par un utilisateur non statisticien.

7 des des 7/65 Domaines concernés : Domaines d application Customer Relationship Management (CRM). Détection de fraude (CB, téléphone mobile). Text Mining (étude de mails de réclamation, extraction et classification de connaissance dans les textes). Web Mining (personnalisation de sites web en fonction des habitudes et du contenu examiné). Aide au diagnostic médical. Exemple : en fonction de points communs détectés avec les symptômes d autres patients connus, le système peut catégoriser de nouveaux patients au vu de leurs analyses médicales en risque estimé (probabilité) de développer telle ou telle maladie.

8 Domaines d application des des Domaines pluridisciplinaires : Analyse de, statistiques, probabilités. Bases de. Intelligence artificielle : systèmes experts; apprentissage automatique; logique. Sciences cognitives : neurosciences; psychologie expérimentale; philosophie... 8/65

9 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 9/65

10 Découverte des des des 10/65

11 des des 11/65 Découverte des base de : Un ensemble de supermarchés localisés dans différentes villes, en France et à l étranger. Caractéristiques : Chaque supermarché possède sa propre base. Informations sur les clients : Customer(c id, c name, c addr, c job,...) Informations sur les produits/articles en vente : Item(i id, i name, i category,...) Informations sur les achats/transactions réalisées (pour chaque transaction, les articles sont stockés un par un) : Transaction(t id, c id, i id, t date,...)

12 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 12/65

13 des des 13/65 Objectif : Supprimer les bruitées ou non pertinentes. Questions : Que faire si certaines sont manquantes? Certains clients n ont pas donné leur adresse. Toutes les sont-elles fiables (problèmes d inconsistance)? Un même article appartient à différentes catégories (dans des magasins différents). Le prix d un même article est très supérieur à la normale dans un magasin donné. Que faire si certaines sont numériques dans le cas où la technique d extraction ne peut manipuler que des symboliques?

14 Données manquantes des des Solutions : Ne pas tenir compte des tuples contenant des manquantes (valeurs nulles). Remplir manuellement les champs non remplis. Utiliser les valeurs connues : Remplacer un salaire manquant par le salaire médian des clients. Prédire les valeurs manquantes, en le déduisant d autres paramètres (salaire à partir de l âge et de la profession). 14/65

15 des des 15/65 Données bruitées Plusieurs solutions : lissage, segmentation, régression linéaire. Techniques de lissage (data smoothing) : 1 Trier les différentes valeurs de l attribut considéré. {4,8,15,21,21,24,25,28,34} 2 Partitionner l ensemble résultat. {{4,8,15},{21,21,24},{25,28,34}} 3 Remplacer les valeurs initiales par de nouvelles valeurs en fonction du partitionnement réalisé : par la valeur moyenne des regroupements réalisés {9,22,29} par les min et max des regroupements réalisés. {{4,4,15},{21,21,24},{25,25,34}} Implique une perte de précision ou d information.

16 Données bruitées des des Techniques de segmentation (clustering) : Les valeurs similaires sont placées dans une même classe. On ne tient pas compte des valeurs isolées (dans une classe comportant trop peu d éléments). Techniques de régression linéaire : Hypothèse : un attribut Y dépend linéairement d un attribut X. Années d expérience X et salaire Y. Trouver les coefficients a et b tels que Y = ax +b. Remplacer les valeurs de Y par celles prédites. 16/65

17 des des Données de départ : Un ensemble de couples (X i,y i ). Détermination des coefficients : Données bruitées : régression linéaire Soient X et Ȳ les valeurs moyennes des attributs X et Y. a = cov(x,y). V(x) b = Ȳ a X. 17/65

18 Données inconsistantes des des Données inconsistantes dans une base de : Contraintes d intégrités ou dépendances fonctionnelles non respectées. Exemples : La contrainte I ID I CATEGORY n est pas respectée au moment de l intégration des. Unicité de clés non respectée. 18/65

19 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 19/65

20 des des Objectif : Regrouper les provenant de différentes sources. Problématique typique lors de la construction d entrepôts de. Exemple : Un attribut nommé C ID dans la BD de Paris peut très bien se nommer CUST ID dans la BD de Londres. Utilisation de méta- (XML) pour la mise en correspondance. 20/65

21 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 21/65

22 des des 22/65 des Lissage de : utilisation de techniques de régression. Normalisation des : normaliser certains attributs numériques afin qu ils varient entre 0 et 1. Pour ne pas privilégier les attributs ayant les plus grands domaines de variation (salaire/âge). Agrégation des : opérations OLAP (On-Line Analytical Processing) permettant une analyse multidimensionnelle sur les BD volumineuses afin de mettre en évidence une analyse particulière des. Calculer les niveaux de ventes réalisées de tel produit par mois plutôt que par jour. Généralisation des : remplacer les finies par des de plus haut niveau. Remplacer les adresses precises des clients par leur code postal. Remplacer l âge des clients par jeune, adulte, sénior.

23 des des 23/65 Discrétisation des Répartition des valeurs des attributs : À chaque étape, on cherche à découper l intervalle de variation des en K intervalles comportant le même nombre de valeurs. On divise C AGE= [0,100] en A 1 = [0,20] et A 2 = [20,100] si 50 % des clients ont moins de 20 ans. Entropie et classification à priori des : On cherche à caractériser les individus achetant les différents types de lait (entier, demi-écrémé, écrémé). Facilité à appréhender le découpage obtenu : On veut obtenir des intervalles du type [ 12.5, 0] plutôt que [ , ].

24 des des Discrétisation basée sur l entropie (1/2) Entropie d un ensemble de S : Définition : S est découpé en k classes C 1,...,C k. Ent(S) = p i.log(p i ) avec p i = C i S. Propriétés : Ent(S) est maximale (égale à 0) si les sont réparties dans une seule et même classe. Ent(S) est minimale si les sont uniformément réparties dans toutes les classes. 24/65

25 des des Méthode : Discrétisation basée sur l entropie (2/2) Découper S = [a,b] en S 1 = [a,c] et S 2 = [c,b]. Maximiser le gain d information I(S,c) = S 1 S Ent(S 1)+ S 2 S Ent(S 2) Ent(S). Arrêt du découpage si le gain devient insuffisant, quel que soit c. 25/65

26 Variation de l entropie des des 26/65

27 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 27/65

28 des des Objectif : Garder uniquement les pertinentes pour l étude à réaliser. Exemple : Doit-on s intéresser à toutes les catégories de produits de vente? Doit-on s intéresser aux ventes réalisées il y a plus d un an? 28/65

29 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 29/65

30 des des 30/65 Réduction en ligne par échantillonnage : Pour des raisons de performance. Du fait de la compléxité importante des algorithmes d extraction. Plusieurs méthodes : échantillonnage aléatoire (avec ou sans remise), échantillonnage par clustering/segmentation. Réduction en colonne par suppression des attributs redondants : Cas triviaux (âge et date de naissance). Via une analyse des corrélation entre attributs : corr A,B = P(A B) P(A).P(B) = P(B/A) P(B) Indépendance : corr A,B = 1 si P(B/A) = P(B). Corrélation positive : corr A,B > 1 si P(B/A) > P(B).

31 Matrice de contingence des des 31/65 matrice de contingence : Avec pain Sans pain Total Avec beurre Sans beurre Total Analyse de corrélation : P(Beurre) = = 0.75 et P(Pain) = 0.6. P(Beurre Pain) = = 0.4. corr Pain,Beurre = = 0.89 < 1 Indique une corrélation négative.

32 Qualité de la corrélation des des Coefficient de corrélation : (Ai Ā)(B i B) r A,B = σ A.σ B avec σ X = (Xi X) 2. Signification : Plus r A,B s éloigne de zéro, meilleure est la corrélation : r A,B = +1 : corrélation positive parfaite. r A,B = 1 : corrélation négative parfaite. r A,B = 0 : absence totale de corrélation. 32/65

33 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 33/65

34 des des 34/65

35 des des 35/65 (1/2) Techniques descriptives : Visent à mettre en évidence des informations présentes, mais cachées dans les gros volumes de. Cas de la segmentation de la clientèle, de la recherche d association de produits sur les tickets de caisse. Permettent de réduire, de résumer et de synthétiser les. Pas de variable cible à prédire. Exemples : Techniques de segmentation/clustering : nuées dynamiques, segmentation hiérarchique, réseaux de neurones. règles d association.

36 des des 36/65 (2/2) Techniques prédictives : Visent à extrapoler de nouvelles informations à partir des informations présentes. Cas général du scoring (impayés, attrition, crédit). Permettent d expliquer les. Il existe une variable cible à prédire. Exemples : Classification/discrimination (variable cible qualitative) : analyse discriminante; arbres de classification; réseaux neuronaux multi-couches. Prédiction (variable cible quantitative) : régression linéaire (simple et multiple); arbres de régression.

37 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 37/65

38 Post-traitement des des 38/65 Présentation des. Visualisation des. Manipulation des.

39 Présentation des des des Problème : Comment représenter/visualiser les extraites? Formules logiques : Age(X, jeune ), Revenu(X, eleve ) class(x, A ) [1.402]. Age(X, jeune ), Revenu(X, bas ) class(x, B ) [1.038]. Age(X, senior ) class(x, C ) [2.160]. 39/65

40 des des Tableau : Présentation des Age Revenu Class Count jeune eleve A jeune bas B senior eleve C 786 senior bas C Arbre de : 40/65

41 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 41/65

42 des des Les origines : Intelligence artificielle [Quinlan, 1983]. Statistiques [Breiman, 1986]. Points forts : Généralités Applicables à la fois à des attributs numériques et symboliques. Intelligibilité de la procédure de. Rapidité de la. Invariance des résultats à toute transformation monotone des. 42/65 Problème : Comment construire un arbre de à partir d un ensemble de?

43 Principe de construction des des Données : Ensemble de K classes C 1,C 2,...,C K. Ensemble d objets décrits selon N +1 attributs ou variables : N variables descriptives (taille, couleurs, forme, etc.) 1 variable de catégorie : à quelle classe appartient un objet donné (raisin, pomme, banane, etc.)? Principe de l algorithme : Partitionnement successif de l ensemble de. 43/65

44 Définition d une partition (1/2) des des Variable binaire X {1,0} Variable quantitative X X? 1 0 X < α? /65

45 Définition d une partition (2/2) des des Variable qualitative X avec M modalités dans E = {e 1,...,e m }. X E E? X? 1 0 e 1 e 2 e M 45/65

46 Choix d une partition des des Principe : Partitionner les en sous-ensembles les plus purs possibles, i.e. contenant des objets d une seule classe. Exemples de critères d impureté : Soit un ensemble S partitionné en K classes C 1,...,C K. Soit P k = C k S. Taux d items mal classés : T(S) = 1 max k (P k ). Entropie : I(S) = k P k log 2 P k. Critère de Gini : G(S) = 1 k P2 k. 46/65

47 des des Gain d information (1/2) Définition : I = I(S) P L I(S L ) P R I(S R ) avec P L = S L S et P R = S R S. I est la fonction d entropie. Exemple : S(20/30) 47/65 S L (15/5) S R (5/25) I(S) = 20/50log 2 (20/50) 30/50log 2 (30/50) = 0,971 I(S L ) = 15/20log 2 (15/20) 5/20log 2 (5/20) = 0,811 I(S R ) = 5/30log 2 (5/30) 25/30log 2 (25/30) = 0,65 I = 0,971 20/50(0,811) 30/50(0,65) = 0,26

48 Gain d information (2/2) des des Cas d une partition quelconque : I = I(S) k P ki(s k ) dans le cas où S est découpé en S 1,...,S K, avec P k = S k S. Problème : Les variables avec un grand nombre de modalités induisent une plus grande réduction de l impureté. Gain ratio impurity I I K = k P k logp k 48/65

49 des des 49/65 Partionnement d une feuille : Algorithme de construction 1 Pour chaque variable X i, rechercher la partition optimale P i = {S 1,...,S N }, i.e. la partition maximisant le gain d information. (Si X i est quantitatif, chercher le seuil α maximisant le gain d information.) 2 Choisir parmi toutes les partition P i celle qui maximise le gain d information. Arrêt : Lorsqu une feuille contient uniquement des objets d une seule classe. Lorsque le gain en information est inférieur à un seuil donné.

50 Exemple 1 (1/3) des des 50/65

51 Exemple 1 (2/3) des des 51/65

52 Exemple 1 (3/3) des des Arbre de final : X < 1,5? 1 0 Cercle 1 Y < 2,5? 0 Carré Cercle 52/65

53 des des 53/65 Exemple 2 (1/6) id age income student credit-rating class 1 <30 high no fair no 2 <30 high no good no high no fair yes 4 >40 medium no fair yes 5 >40 low yes fair yes 6 >40 low yes good no low yes good yes 8 <30 medium no fair no 9 <30 low yes fair yes 10 >40 medium yes fair yes 11 <30 medium yes good yes medium no good yes high yes fair yes 14 >40 medium no good no

54 des des 54/65 Exemple 2 (2/6) Entropie de départ : I(S) = 0,940. Avec l attribut age : age < 30 : I(S L ) = 0,971 et I(S R ) = 0,764 donc I = 0,102. age < 40 : I(S L ) = 0,918 et I(S R ) = 0,971 donc I = 0,003. Avec l attribut income : income = low : I(S L ) = 0,811 et I(S R ) = 0,971 donc I = 0,015. income = medium : I(S L ) = 0,918 et I(S R ) = 0,954 donc I = 0,001. income = high : I(S L ) = 1,0 et I(S R ) = 0,881 donc I = 0,025. Avec l attribut student : student = yes : I(S L ) = 0,592 et I(S R ) = 0,985 donc I = Avec l attribut credit rating : rating = fair : I(S L ) = 0,811 et I(S R ) = 1,0 donc I = 0,048.

55 des des 55/65 Exemple 2 (3/6) student = yes id age income student credit-rating class 5 >40 low yes fair yes 6 >40 low yes good no low yes good yes 9 <30 low yes fair yes 10 >40 medium yes fair yes 11 <30 medium yes good yes high yes fair yes 1 <30 high no fair no 2 <30 high no good no high no fair yes 4 >40 medium no fair yes 8 <30 medium no fair no medium no good yes 14 >40 medium no good no

56 Exemple 2 (4/6) des des Entropie de départ (student = no) : I(S) = 0,985. Avec l attribut age : age < 30 : I(S L ) = 0 et I(S R ) = 0,811 donc I = 0,522. age < 40 : I(S L ) = 0,811 et I(S R ) = 1,0 donc I = 0,006. Avec l attribut income : income = medium : I(S L ) = 1,0 et I(S R ) = 0,918 donc I = 0,020. income = high : I(S L ) = 1,0 et I(S R ) = 0,918 donc I = 0,020. Avec l attribut credit rating : rating = fair : I(S L ) = 1,0 et I(S R ) = 0,918 donc I = 0, /65

57 des des 57/65 Exemple 2 (5/6) age < 30 id age income student credit-rating class 5 >40 low yes fair yes 6 >40 low yes good no low yes good yes 9 <30 low yes fair yes 10 >40 medium yes fair yes 11 <30 medium yes good yes high yes fair yes 1 <30 high no fair no 2 <30 high no good no 8 <30 medium no fair no high no fair yes 4 >40 medium no fair yes medium no good yes 14 >40 medium no good no

58 Exemple 2 (6/6) des des Arbre de final : 1 student? 0 Yes 1 age < 30? 0 No Yes 58/65

59 des des 59/65 Exemples de règles d arrêt : Règles d arrêt Nombre d éléments dans une feuille inférieur à un seuil. Taux de bien classés dans une feuille supérieur à un seuil (exemple : max k (P k ) > 95%). Gain d information inférieur à un seuil (exemple : I < β). Autre approche : test du χ 2 Test de l indépendance entre : la partition obtenue par maximisation du gain d information; la partition qui serait obtenue sous l hypothèse d indépendance.

60 Pour aller plus loin... des des Élagage de l arbre : Laisser l arbre pousser jusqu à l obtention de feuilles pratiquement pures, puis couper des branches pour simplifier l arbre. Méthode : rechercher le sous-arbre minimisant la fonction de coût-capacité. [Breiman, Olshen et Stone, 1984] 60/65

61 des des Bagging : Pour aller plus loin... Amélioration de la stabilité de la méthode de classification. 61/65

62 des des 62/65 Avantages : Conclusion Applicables à des variables quantitatives ou qualitatives. Intelligibilité de la procédure de classification (avec une traduction possible sous forme de règles). Rapidité du processus de classification (après construction de l arbre). Invariance à toute transformation monotone des. Sélectionne automatiquement les variables les plus importantes. Problèmes : Performance sur de grands volumes de? Choix des variables : arbres multi-variés potentiellement plus performant, mais au détriment de l intelligibilité des solutions proposées.

63 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 63/65

64 Problèmes et perspectives des des Problème de performance : Les volumes de à traiter peuvent être très importants. Solutions : Calcul parallèle et/ou distribué : utilisation de grilles de calcul. Techniques incrémentales : utilisation de résultats antérieurs pour l optimisation des calculs de nouvelles requêtes d extraction; stockage efficace des résultats de requêtes d extraction. 64/65

65 des des 65/65 Problèmes et perspectives de de différents types : Feuilles de calcul MS Excel. Bases de transactionnelles. Bases de relationnelles. Structures complexes : spatiales, temporelles, etc. Problème de l hétérogénéité des. Besoin de langages de requêtes d extraction : SQL ne permet pas de mesurer des notions floues (tendances). de nouveaux langages : MSQL, MINE-RULE, DMQL... Syntaxes proches de SQL. Pas de théorie générale et/ou d algèbre.

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! "##$ % &!

 # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! ##$ % &! "# $ %%& ' ( )*+, '()*+,'+''-++.+/0112134+1.50*406 "##$ %& 8CC "#$%& ' ( )* +,-./ 0 123 456+7 3 7-55-89.*/ 0 +3 *+:3 ;< =3 3-3 8 0 23 >-8-3 >5? //*/*0;* @A: *53,,3 / * $/ >B+? - 5, 2 34*56 7 /+#** //8

Plus en détail

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy. Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.fr 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de

Plus en détail

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani Datawarehouse: Cubes OLAP Marlyse Dieungang Khaoula Ghilani Table des matières 1 Data Warehouse 3 1.1 Introduction............................ 3 1.1.1 Définition......................... 3 1.1.2 Architecture........................

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 3 - Data

BI = Business Intelligence Master Data-ScienceCours 3 - Data BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse UPMC 8 février 2015 Rappel L Informatique Décisionnelle (ID), en anglais Business Intelligence (BI), est l informatique à l usage

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Introduction à l Informatique Décisionnelle - Business Intelligence (7) Introduction à l Informatique Décisionnelle - Business Intelligence (7) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013 Emergence

Plus en détail

BUSINESS INTELLIGENCE

BUSINESS INTELLIGENCE GUIDE COMPARATIF BUSINESS INTELLIGENCE www.viseo.com Table des matières Business Intelligence :... 2 Contexte et objectifs... 2 Une architecture spécifique... 2 Les outils de Business intelligence... 3

Plus en détail

Méthodes d apprentissage statistique «Machine Learning»

Méthodes d apprentissage statistique «Machine Learning» Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours

Plus en détail

ETL Extract - Transform - Load

ETL Extract - Transform - Load ETL Extract - Transform - Load Concept général d analyse en ligne (rappels) Rémy Choquet - Université Lyon 2 - Master 2 IIDEE - 2006-2007 Plan Définitions La place d OLAP dans une entreprise OLAP versus

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Workflow/DataWarehouse/DataMining. 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1

Workflow/DataWarehouse/DataMining. 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1 Workflow/DataWarehouse/DataMining 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1 plan Workflow DataWarehouse Aide à la décision DataMinig Conclusion 14-09-98 LORIA

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Evry - M2 MIAGE Entrepôt de données

Evry - M2 MIAGE Entrepôt de données Evry - M2 MIAGE Entrepôt de données Introduction D. Ploix - M2 Miage - EDD - Introduction 1 Plan Positionnement du BI dans l entreprise Déclinaison fonctionnelle du décisionnel dans l entreprise Intégration

Plus en détail

Que fait SAS Enterprise Miner?

Que fait SAS Enterprise Miner? Développez une connaissance plus précise avec un processus data mining plus productif La transformation de données brutes en informations utiles reste une problématique pour les entreprises. Pour apporter

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Les bases de données

Les bases de données Les bases de données Introduction aux fonctions de tableur et logiciels ou langages spécialisés (MS-Access, Base, SQL ) Yves Roggeman Boulevard du Triomphe CP 212 B-1050 Bruxelles (Belgium) Idée intuitive

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies

Plus en détail

2 Serveurs OLAP et introduction au Data Mining

2 Serveurs OLAP et introduction au Data Mining 2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité

Plus en détail

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine 2015-2016

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine 2015-2016 Entrepôts de données NEGRE Elsa Université Paris-Dauphine 2015-2016 Contexte et problématique Le processus de prise de décision L entrepôt de données Définition Différence avec un SGBD Caractéristiques

Plus en détail

Data Mining. Master 1 Informatique - Mathématiques UAG

Data Mining. Master 1 Informatique - Mathématiques UAG Data Mining Master 1 Informatique - Mathématiques UAG 1.1 - Introduction Data Mining? On parle de Fouille de données Data Mining Extraction de connaissances à partir de données Knowledge Discovery in Data

Plus en détail

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

LES ENTREPOTS DE DONNEES

LES ENTREPOTS DE DONNEES Module B4 : Projet des Systèmes d information Lille, le 25 mars 2002 LES ENTREPOTS DE DONNEES Problématique : Pour capitaliser ses informations, une entreprise doit-elle commencer par mettre en œuvre des

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Urbanisation des SI-NFE107

Urbanisation des SI-NFE107 OLAP Urbanisation des SI-NFE107 Fiche de lecture Karim SEKRI 20/01/2009 OLAP 1 Introduction PLAN OLAP Les différentes technologies OLAP Plate formes et Outils 20/01/2009 OLAP 2 Informatique décisionnelle

Plus en détail

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE I N T E RS Y S T E M S INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE David Kaaret InterSystems Corporation INTERSySTEMS CAChé CoMME ALTERNATIvE AUx BASES de données RéSIdENTES

Plus en détail

Fast and furious decision tree induction

Fast and furious decision tree induction Institut National des Sciences Appliquées de Rennes Rapport de pré-étude Encadrants : Nikolaos Parlavantzas - Christian Raymond Fast and furious decision tree induction Andra Blaj Nicolas Desfeux Emeline

Plus en détail

SQL SERVER 2008, BUSINESS INTELLIGENCE

SQL SERVER 2008, BUSINESS INTELLIGENCE SGBD / Aide à la décision SQL SERVER 2008, BUSINESS INTELLIGENCE Réf: QLI Durée : 5 jours (7 heures) OBJECTIFS DE LA FORMATION Cette formation vous apprendra à concevoir et à déployer une solution de Business

Plus en détail

TRAVAUX DE RECHERCHE DANS LE

TRAVAUX DE RECHERCHE DANS LE TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...) Avant-propos 1. À qui s'adresse ce livre? 15 2. Pré-requis 15 3. Objectifs du livre 16 4. Notations 17 Introduction à la Business Intelligence 1. Du transactionnel au décisionnel 19 2. Business Intelligence

Plus en détail

La problématique. La philosophie ' ) * )

La problématique. La philosophie ' ) * ) La problématique!" La philosophie #$ % La philosophie &'( ' ) * ) 1 La philosophie +, -) *. Mise en oeuvre Data warehouse ou Datamart /01-2, / 3 13 4,$ / 5 23, 2 * $3 3 63 3 #, 7 Datawarehouse Data warehouse

Plus en détail

Hervé Couturier EVP, SAP Technology Development

Hervé Couturier EVP, SAP Technology Development Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud

Plus en détail

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

Chapitre VIII. Les bases de données. Orientées Objet. Motivation Chapitre VIII Motivation Le modèle relationnel connaît un très grand succès et s avère très adéquat pour les applications traditionnelles des bases de données (gestion) Les bases de données Orientées Objet

Plus en détail

Business Intelligence

Business Intelligence avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................

Plus en détail

UE 8 Systèmes d information de gestion Le programme

UE 8 Systèmes d information de gestion Le programme UE 8 Systèmes d information de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur Indications

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

IBM SPSS Direct Marketing

IBM SPSS Direct Marketing IBM SPSS Statistics 19 IBM SPSS Direct Marketing Comprenez vos clients et renforcez vos campagnes marketing Points clés Avec IBM SPSS Direct Marketing, vous pouvez : Comprendre vos clients de manière plus

Plus en détail

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS) MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour

Plus en détail

Business Intelligence : Informatique Décisionnelle

Business Intelligence : Informatique Décisionnelle Business Intelligence : Informatique Décisionnelle On appelle «aide à la décision», «décisionnel», ou encore «business intelligence», un ensemble de solutions informatiques permettant l analyse des données

Plus en détail

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/ Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/

Plus en détail

Bases de Données OLAP

Bases de Données OLAP Bases de Données OLAP Hiver 2013/2014 Melanie Herschel melanie.herschel@lri.fr Université Paris Sud, LRI Chapitre 1 Introduction Détails administratifs Entrepôts de Données Perspective sur le semestre

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Présentation de l auteur En charge de la statistique et du data mining dans un grand groupe bancaire Enseigne le data mining en Master 2 à l Université

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

Les bases de données Page 1 / 8

Les bases de données Page 1 / 8 Les bases de données Page 1 / 8 Sommaire 1 Définitions... 1 2 Historique... 2 2.1 L'organisation en fichier... 2 2.2 L'apparition des SGBD... 2 2.3 Les SGBD relationnels... 3 2.4 Les bases de données objet...

Plus en détail

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles) SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients

Plus en détail

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Cybermarché et analyse comportementale

Cybermarché et analyse comportementale Cybermarché et analyse comportementale Antoine-Eric Sammartino aesammartino@e-laser.fr Séminaire Data Mining - Educasoft Formations 18 juin 2001-1- MENU Le Groupe LaSer Le processus Data Mining L industrialisation

Plus en détail

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc. Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.fr Plan Motivations Débouchés Formation UVs spécifiques UVs connexes Enseignants

Plus en détail

Bases de Données Avancées

Bases de Données Avancées 1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,

Plus en détail

Business Intelligence avec Excel, Power BI et Office 365

Business Intelligence avec Excel, Power BI et Office 365 Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10

Plus en détail

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test Grandes lignes Analyseur Statique de logiciels Temps RÉel Embarqués École Polytechnique École Normale Supérieure Mercredi 18 juillet 2005 1 Présentation d 2 Cadre théorique de l interprétation abstraite

Plus en détail

Bases de Données. Plan

Bases de Données. Plan Université Mohammed V- Agdal Ecole Mohammadia d'ingénieurs Rabat Bases de Données Mr N.EL FADDOULI 2014-2015 Plan Généralités: Définition de Bases de Données Le modèle relationnel Algèbre relationnelle

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

Découvrez le portefeuille de produits IBM SPSS

Découvrez le portefeuille de produits IBM SPSS Business Analytics Logiciels SPSS Découvrez le portefeuille de produits IBM SPSS L analytique avancée qui aident les entreprises à anticiper le changement et à prendre des mesures pour améliorer leurs

Plus en détail

Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS 1er semestre UE1-01 E Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS Introduction au système SAS 25,5

Plus en détail

BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année 1997-98. J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES

BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année 1997-98. J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES BASES DE DONNÉES CNAM Centre associé de Clermont-Ferrand Cycle A Année 1997-98 J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES III. LES SYSTÈMES RÉSEAU IV. LES SYSTÈMES RELATIONNELS V. LE LANGAGE

Plus en détail

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux Plan Objectifs Débouchés Formation UVs spécifiques UVs connexes Enseignants et partenaires Structure générale des études à l UTC Règlement

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail