Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto."

Transcription

1 des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne /65

2 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65

3 des des Définition générale Le data mining est l ensemble des algorithmes et méthodes : destinés à l exploration et à l analyse, pour de grandes bases de informatiques, sans a priori. Le data mining permet la détection dans les : de règles, d associations, de tendances inconnues, de structures particulières, restituant l information utile, tout en réduisant la quantité de. 3/65 pour l aide à la.

4 Objectif des des On ne veut plus seulement savoir : Combien de clients ont acheté tel produit pendant telle période? Mais : Quel est le profil des clients? Quels autres produits les intéresseront? Quand seront-ils intéressés? 4/65

5 Des statistiques... des des 5/65 Statistiques : Quelques centaines d individus. Quelques variables recueillies avec un protocole spécial (échantillonnage, plan d expérience). Hypothèses fortes (à priori) sur les lois statistiques suivies. Analyse de : Quelques milliers d individus. Plusieurs dizaines de variables. Construction de tableaux Individus Variables. Importance de la représentation visuelle.

6 des des 6/65 Contexte actuel : Quelques millions d individus. Quelques centaines de variables.... au data mining. De nombreux types de variables (numériques ou symboliques). Données recueillies souvent avant l étude et à d autres fins. Mise en œuvre de calculs rapides. Nouvel objectif : On ne cherche pas toujours l optimum mathématique. On recherche le modèle le plus facile à appréhender par un utilisateur non statisticien.

7 des des 7/65 Domaines concernés : Domaines d application Customer Relationship Management (CRM). Détection de fraude (CB, téléphone mobile). Text Mining (étude de mails de réclamation, extraction et classification de connaissance dans les textes). Web Mining (personnalisation de sites web en fonction des habitudes et du contenu examiné). Aide au diagnostic médical. Exemple : en fonction de points communs détectés avec les symptômes d autres patients connus, le système peut catégoriser de nouveaux patients au vu de leurs analyses médicales en risque estimé (probabilité) de développer telle ou telle maladie.

8 Domaines d application des des Domaines pluridisciplinaires : Analyse de, statistiques, probabilités. Bases de. Intelligence artificielle : systèmes experts; apprentissage automatique; logique. Sciences cognitives : neurosciences; psychologie expérimentale; philosophie... 8/65

9 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 9/65

10 Découverte des des des 10/65

11 des des 11/65 Découverte des base de : Un ensemble de supermarchés localisés dans différentes villes, en France et à l étranger. Caractéristiques : Chaque supermarché possède sa propre base. Informations sur les clients : Customer(c id, c name, c addr, c job,...) Informations sur les produits/articles en vente : Item(i id, i name, i category,...) Informations sur les achats/transactions réalisées (pour chaque transaction, les articles sont stockés un par un) : Transaction(t id, c id, i id, t date,...)

12 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 12/65

13 des des 13/65 Objectif : Supprimer les bruitées ou non pertinentes. Questions : Que faire si certaines sont manquantes? Certains clients n ont pas donné leur adresse. Toutes les sont-elles fiables (problèmes d inconsistance)? Un même article appartient à différentes catégories (dans des magasins différents). Le prix d un même article est très supérieur à la normale dans un magasin donné. Que faire si certaines sont numériques dans le cas où la technique d extraction ne peut manipuler que des symboliques?

14 Données manquantes des des Solutions : Ne pas tenir compte des tuples contenant des manquantes (valeurs nulles). Remplir manuellement les champs non remplis. Utiliser les valeurs connues : Remplacer un salaire manquant par le salaire médian des clients. Prédire les valeurs manquantes, en le déduisant d autres paramètres (salaire à partir de l âge et de la profession). 14/65

15 des des 15/65 Données bruitées Plusieurs solutions : lissage, segmentation, régression linéaire. Techniques de lissage (data smoothing) : 1 Trier les différentes valeurs de l attribut considéré. {4,8,15,21,21,24,25,28,34} 2 Partitionner l ensemble résultat. {{4,8,15},{21,21,24},{25,28,34}} 3 Remplacer les valeurs initiales par de nouvelles valeurs en fonction du partitionnement réalisé : par la valeur moyenne des regroupements réalisés {9,22,29} par les min et max des regroupements réalisés. {{4,4,15},{21,21,24},{25,25,34}} Implique une perte de précision ou d information.

16 Données bruitées des des Techniques de segmentation (clustering) : Les valeurs similaires sont placées dans une même classe. On ne tient pas compte des valeurs isolées (dans une classe comportant trop peu d éléments). Techniques de régression linéaire : Hypothèse : un attribut Y dépend linéairement d un attribut X. Années d expérience X et salaire Y. Trouver les coefficients a et b tels que Y = ax +b. Remplacer les valeurs de Y par celles prédites. 16/65

17 des des Données de départ : Un ensemble de couples (X i,y i ). Détermination des coefficients : Données bruitées : régression linéaire Soient X et Ȳ les valeurs moyennes des attributs X et Y. a = cov(x,y). V(x) b = Ȳ a X. 17/65

18 Données inconsistantes des des Données inconsistantes dans une base de : Contraintes d intégrités ou dépendances fonctionnelles non respectées. Exemples : La contrainte I ID I CATEGORY n est pas respectée au moment de l intégration des. Unicité de clés non respectée. 18/65

19 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 19/65

20 des des Objectif : Regrouper les provenant de différentes sources. Problématique typique lors de la construction d entrepôts de. Exemple : Un attribut nommé C ID dans la BD de Paris peut très bien se nommer CUST ID dans la BD de Londres. Utilisation de méta- (XML) pour la mise en correspondance. 20/65

21 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 21/65

22 des des 22/65 des Lissage de : utilisation de techniques de régression. Normalisation des : normaliser certains attributs numériques afin qu ils varient entre 0 et 1. Pour ne pas privilégier les attributs ayant les plus grands domaines de variation (salaire/âge). Agrégation des : opérations OLAP (On-Line Analytical Processing) permettant une analyse multidimensionnelle sur les BD volumineuses afin de mettre en évidence une analyse particulière des. Calculer les niveaux de ventes réalisées de tel produit par mois plutôt que par jour. Généralisation des : remplacer les finies par des de plus haut niveau. Remplacer les adresses precises des clients par leur code postal. Remplacer l âge des clients par jeune, adulte, sénior.

23 des des 23/65 Discrétisation des Répartition des valeurs des attributs : À chaque étape, on cherche à découper l intervalle de variation des en K intervalles comportant le même nombre de valeurs. On divise C AGE= [0,100] en A 1 = [0,20] et A 2 = [20,100] si 50 % des clients ont moins de 20 ans. Entropie et classification à priori des : On cherche à caractériser les individus achetant les différents types de lait (entier, demi-écrémé, écrémé). Facilité à appréhender le découpage obtenu : On veut obtenir des intervalles du type [ 12.5, 0] plutôt que [ , ].

24 des des Discrétisation basée sur l entropie (1/2) Entropie d un ensemble de S : Définition : S est découpé en k classes C 1,...,C k. Ent(S) = p i.log(p i ) avec p i = C i S. Propriétés : Ent(S) est maximale (égale à 0) si les sont réparties dans une seule et même classe. Ent(S) est minimale si les sont uniformément réparties dans toutes les classes. 24/65

25 des des Méthode : Discrétisation basée sur l entropie (2/2) Découper S = [a,b] en S 1 = [a,c] et S 2 = [c,b]. Maximiser le gain d information I(S,c) = S 1 S Ent(S 1)+ S 2 S Ent(S 2) Ent(S). Arrêt du découpage si le gain devient insuffisant, quel que soit c. 25/65

26 Variation de l entropie des des 26/65

27 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 27/65

28 des des Objectif : Garder uniquement les pertinentes pour l étude à réaliser. Exemple : Doit-on s intéresser à toutes les catégories de produits de vente? Doit-on s intéresser aux ventes réalisées il y a plus d un an? 28/65

29 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 29/65

30 des des 30/65 Réduction en ligne par échantillonnage : Pour des raisons de performance. Du fait de la compléxité importante des algorithmes d extraction. Plusieurs méthodes : échantillonnage aléatoire (avec ou sans remise), échantillonnage par clustering/segmentation. Réduction en colonne par suppression des attributs redondants : Cas triviaux (âge et date de naissance). Via une analyse des corrélation entre attributs : corr A,B = P(A B) P(A).P(B) = P(B/A) P(B) Indépendance : corr A,B = 1 si P(B/A) = P(B). Corrélation positive : corr A,B > 1 si P(B/A) > P(B).

31 Matrice de contingence des des 31/65 matrice de contingence : Avec pain Sans pain Total Avec beurre Sans beurre Total Analyse de corrélation : P(Beurre) = = 0.75 et P(Pain) = 0.6. P(Beurre Pain) = = 0.4. corr Pain,Beurre = = 0.89 < 1 Indique une corrélation négative.

32 Qualité de la corrélation des des Coefficient de corrélation : (Ai Ā)(B i B) r A,B = σ A.σ B avec σ X = (Xi X) 2. Signification : Plus r A,B s éloigne de zéro, meilleure est la corrélation : r A,B = +1 : corrélation positive parfaite. r A,B = 1 : corrélation négative parfaite. r A,B = 0 : absence totale de corrélation. 32/65

33 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 33/65

34 des des 34/65

35 des des 35/65 (1/2) Techniques descriptives : Visent à mettre en évidence des informations présentes, mais cachées dans les gros volumes de. Cas de la segmentation de la clientèle, de la recherche d association de produits sur les tickets de caisse. Permettent de réduire, de résumer et de synthétiser les. Pas de variable cible à prédire. Exemples : Techniques de segmentation/clustering : nuées dynamiques, segmentation hiérarchique, réseaux de neurones. règles d association.

36 des des 36/65 (2/2) Techniques prédictives : Visent à extrapoler de nouvelles informations à partir des informations présentes. Cas général du scoring (impayés, attrition, crédit). Permettent d expliquer les. Il existe une variable cible à prédire. Exemples : Classification/discrimination (variable cible qualitative) : analyse discriminante; arbres de classification; réseaux neuronaux multi-couches. Prédiction (variable cible quantitative) : régression linéaire (simple et multiple); arbres de régression.

37 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 37/65

38 Post-traitement des des 38/65 Présentation des. Visualisation des. Manipulation des.

39 Présentation des des des Problème : Comment représenter/visualiser les extraites? Formules logiques : Age(X, jeune ), Revenu(X, eleve ) class(x, A ) [1.402]. Age(X, jeune ), Revenu(X, bas ) class(x, B ) [1.038]. Age(X, senior ) class(x, C ) [2.160]. 39/65

40 des des Tableau : Présentation des Age Revenu Class Count jeune eleve A jeune bas B senior eleve C 786 senior bas C Arbre de : 40/65

41 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 41/65

42 des des Les origines : Intelligence artificielle [Quinlan, 1983]. Statistiques [Breiman, 1986]. Points forts : Généralités Applicables à la fois à des attributs numériques et symboliques. Intelligibilité de la procédure de. Rapidité de la. Invariance des résultats à toute transformation monotone des. 42/65 Problème : Comment construire un arbre de à partir d un ensemble de?

43 Principe de construction des des Données : Ensemble de K classes C 1,C 2,...,C K. Ensemble d objets décrits selon N +1 attributs ou variables : N variables descriptives (taille, couleurs, forme, etc.) 1 variable de catégorie : à quelle classe appartient un objet donné (raisin, pomme, banane, etc.)? Principe de l algorithme : Partitionnement successif de l ensemble de. 43/65

44 Définition d une partition (1/2) des des Variable binaire X {1,0} Variable quantitative X X? 1 0 X < α? /65

45 Définition d une partition (2/2) des des Variable qualitative X avec M modalités dans E = {e 1,...,e m }. X E E? X? 1 0 e 1 e 2 e M 45/65

46 Choix d une partition des des Principe : Partitionner les en sous-ensembles les plus purs possibles, i.e. contenant des objets d une seule classe. Exemples de critères d impureté : Soit un ensemble S partitionné en K classes C 1,...,C K. Soit P k = C k S. Taux d items mal classés : T(S) = 1 max k (P k ). Entropie : I(S) = k P k log 2 P k. Critère de Gini : G(S) = 1 k P2 k. 46/65

47 des des Gain d information (1/2) Définition : I = I(S) P L I(S L ) P R I(S R ) avec P L = S L S et P R = S R S. I est la fonction d entropie. Exemple : S(20/30) 47/65 S L (15/5) S R (5/25) I(S) = 20/50log 2 (20/50) 30/50log 2 (30/50) = 0,971 I(S L ) = 15/20log 2 (15/20) 5/20log 2 (5/20) = 0,811 I(S R ) = 5/30log 2 (5/30) 25/30log 2 (25/30) = 0,65 I = 0,971 20/50(0,811) 30/50(0,65) = 0,26

48 Gain d information (2/2) des des Cas d une partition quelconque : I = I(S) k P ki(s k ) dans le cas où S est découpé en S 1,...,S K, avec P k = S k S. Problème : Les variables avec un grand nombre de modalités induisent une plus grande réduction de l impureté. Gain ratio impurity I I K = k P k logp k 48/65

49 des des 49/65 Partionnement d une feuille : Algorithme de construction 1 Pour chaque variable X i, rechercher la partition optimale P i = {S 1,...,S N }, i.e. la partition maximisant le gain d information. (Si X i est quantitatif, chercher le seuil α maximisant le gain d information.) 2 Choisir parmi toutes les partition P i celle qui maximise le gain d information. Arrêt : Lorsqu une feuille contient uniquement des objets d une seule classe. Lorsque le gain en information est inférieur à un seuil donné.

50 Exemple 1 (1/3) des des 50/65

51 Exemple 1 (2/3) des des 51/65

52 Exemple 1 (3/3) des des Arbre de final : X < 1,5? 1 0 Cercle 1 Y < 2,5? 0 Carré Cercle 52/65

53 des des 53/65 Exemple 2 (1/6) id age income student credit-rating class 1 <30 high no fair no 2 <30 high no good no high no fair yes 4 >40 medium no fair yes 5 >40 low yes fair yes 6 >40 low yes good no low yes good yes 8 <30 medium no fair no 9 <30 low yes fair yes 10 >40 medium yes fair yes 11 <30 medium yes good yes medium no good yes high yes fair yes 14 >40 medium no good no

54 des des 54/65 Exemple 2 (2/6) Entropie de départ : I(S) = 0,940. Avec l attribut age : age < 30 : I(S L ) = 0,971 et I(S R ) = 0,764 donc I = 0,102. age < 40 : I(S L ) = 0,918 et I(S R ) = 0,971 donc I = 0,003. Avec l attribut income : income = low : I(S L ) = 0,811 et I(S R ) = 0,971 donc I = 0,015. income = medium : I(S L ) = 0,918 et I(S R ) = 0,954 donc I = 0,001. income = high : I(S L ) = 1,0 et I(S R ) = 0,881 donc I = 0,025. Avec l attribut student : student = yes : I(S L ) = 0,592 et I(S R ) = 0,985 donc I = Avec l attribut credit rating : rating = fair : I(S L ) = 0,811 et I(S R ) = 1,0 donc I = 0,048.

55 des des 55/65 Exemple 2 (3/6) student = yes id age income student credit-rating class 5 >40 low yes fair yes 6 >40 low yes good no low yes good yes 9 <30 low yes fair yes 10 >40 medium yes fair yes 11 <30 medium yes good yes high yes fair yes 1 <30 high no fair no 2 <30 high no good no high no fair yes 4 >40 medium no fair yes 8 <30 medium no fair no medium no good yes 14 >40 medium no good no

56 Exemple 2 (4/6) des des Entropie de départ (student = no) : I(S) = 0,985. Avec l attribut age : age < 30 : I(S L ) = 0 et I(S R ) = 0,811 donc I = 0,522. age < 40 : I(S L ) = 0,811 et I(S R ) = 1,0 donc I = 0,006. Avec l attribut income : income = medium : I(S L ) = 1,0 et I(S R ) = 0,918 donc I = 0,020. income = high : I(S L ) = 1,0 et I(S R ) = 0,918 donc I = 0,020. Avec l attribut credit rating : rating = fair : I(S L ) = 1,0 et I(S R ) = 0,918 donc I = 0, /65

57 des des 57/65 Exemple 2 (5/6) age < 30 id age income student credit-rating class 5 >40 low yes fair yes 6 >40 low yes good no low yes good yes 9 <30 low yes fair yes 10 >40 medium yes fair yes 11 <30 medium yes good yes high yes fair yes 1 <30 high no fair no 2 <30 high no good no 8 <30 medium no fair no high no fair yes 4 >40 medium no fair yes medium no good yes 14 >40 medium no good no

58 Exemple 2 (6/6) des des Arbre de final : 1 student? 0 Yes 1 age < 30? 0 No Yes 58/65

59 des des 59/65 Exemples de règles d arrêt : Règles d arrêt Nombre d éléments dans une feuille inférieur à un seuil. Taux de bien classés dans une feuille supérieur à un seuil (exemple : max k (P k ) > 95%). Gain d information inférieur à un seuil (exemple : I < β). Autre approche : test du χ 2 Test de l indépendance entre : la partition obtenue par maximisation du gain d information; la partition qui serait obtenue sous l hypothèse d indépendance.

60 Pour aller plus loin... des des Élagage de l arbre : Laisser l arbre pousser jusqu à l obtention de feuilles pratiquement pures, puis couper des branches pour simplifier l arbre. Méthode : rechercher le sous-arbre minimisant la fonction de coût-capacité. [Breiman, Olshen et Stone, 1984] 60/65

61 des des Bagging : Pour aller plus loin... Amélioration de la stabilité de la méthode de classification. 61/65

62 des des 62/65 Avantages : Conclusion Applicables à des variables quantitatives ou qualitatives. Intelligibilité de la procédure de classification (avec une traduction possible sous forme de règles). Rapidité du processus de classification (après construction de l arbre). Invariance à toute transformation monotone des. Sélectionne automatiquement les variables les plus importantes. Problèmes : Performance sur de grands volumes de? Choix des variables : arbres multi-variés potentiellement plus performant, mais au détriment de l intelligibilité des solutions proposées.

63 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 63/65

64 Problèmes et perspectives des des Problème de performance : Les volumes de à traiter peuvent être très importants. Solutions : Calcul parallèle et/ou distribué : utilisation de grilles de calcul. Techniques incrémentales : utilisation de résultats antérieurs pour l optimisation des calculs de nouvelles requêtes d extraction; stockage efficace des résultats de requêtes d extraction. 64/65

65 des des 65/65 Problèmes et perspectives de de différents types : Feuilles de calcul MS Excel. Bases de transactionnelles. Bases de relationnelles. Structures complexes : spatiales, temporelles, etc. Problème de l hétérogénéité des. Besoin de langages de requêtes d extraction : SQL ne permet pas de mesurer des notions floues (tendances). de nouveaux langages : MSQL, MINE-RULE, DMQL... Syntaxes proches de SQL. Pas de théorie générale et/ou d algèbre.

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Organisation du cours

Organisation du cours Organisation du cours Intervenants A. Giacometti 12h de CM + 8h de TD + 4h de TP A. Soulet 4h de CM + 4h de TD Evaluation Examen terminal (60% de la note finale) Projet (40% de la note finale) Outils utilisés

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Ce qu est le Data Mining

Ce qu est le Data Mining Data Mining 1 Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Phase 4 : Modélisation non-supervisée - 5 : Règles d association

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Entreposage, analyse en ligne et fouille de données

Entreposage, analyse en ligne et fouille de données Entreposage, analyse en ligne et fouille de données Houssem Jerbi IRIT - SIG/ED jerbi@irit.fr Journée COMPIL " Bases de Données" 14/12/2010 PLAN Introduction Bases de données Entrepôt de données Technologie

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Data Mining, fouille de données: Concepts et techniques. Marius Fieschi Faculté de Médecine de Marseille

Data Mining, fouille de données: Concepts et techniques. Marius Fieschi Faculté de Médecine de Marseille Data Mining, fouille de données: Concepts et techniques Marius Fieschi Faculté de Médecine de Marseille Data Mining, fouille de données: Concepts et techniques Ce cours est très proche du cours diffusé

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Apprentissage statistique:

Apprentissage statistique: Apprentissage statistique: Arbre de décision binaire et Random Forest 1 Plan 1. Introduction 2. 3. Application à l apprentissage supervisé 4. Forêt Aléatoire (Random Forest) 2 1 Plan 1. Introduction 2.

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 7 - Data

BI = Business Intelligence Master Data-ScienceCours 7 - Data BI = Business Intelligence Master Data-Science Cours 7 - Data Mining Ludovic DENOYER - UPMC 30 mars 2015 Ludovic DENOYER - Typologie des méthodes de Data Mining Différents types de méthodes : Méthodes

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! "##$ % &!

 # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! ##$ % &! "# $ %%& ' ( )*+, '()*+,'+''-++.+/0112134+1.50*406 "##$ %& 8CC "#$%& ' ( )* +,-./ 0 123 456+7 3 7-55-89.*/ 0 +3 *+:3 ;< =3 3-3 8 0 23 >-8-3 >5? //*/*0;* @A: *53,,3 / * $/ >B+? - 5, 2 34*56 7 /+#** //8

Plus en détail

Pierre-Louis GONZALEZ

Pierre-Louis GONZALEZ SEGMENTATION Pierre-Louis GONZALEZ 1 I. Les méthodes de segmentation. Introduction Les méthodes de segmentation cherchent à résoudre les problèmes de discrimination et de régression en divisant de façon

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

Base de données en mémoire

Base de données en mémoire Base de données en mémoire Plan Bases de données relationnelles OnLine Analytical Processing Difficultés de l OLAP Calculs en mémoire Optimisations 1 Base de données relationnelle Introduction Date Exemple

Plus en détail

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Classification par des méthodes de data mining Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Plan: Le processus métier Présentation des 3 méthodes étudiées: Arbres de décision Machines à vecteurs

Plus en détail

Analyse de données électroniques et intelligence d affaires

Analyse de données électroniques et intelligence d affaires Analyse de données électroniques et intelligence d affaires Valoriser les données internes et externes 3 avril 2014 Ordre du jour UNE INTRODUCTION À L ANALYSE DE DONNÉES Analyse de données et l intelligence

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Université Ibn Zohr Faculté des Sciences Juridiques, Économiques et Sociales Exposé sous le thème : Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Plan : Introduction : L

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

INTRODUCTION AU DATA MINING. Cina MOTAMED

INTRODUCTION AU DATA MINING. Cina MOTAMED INTRODUCTION AU DATA MINING Cina MOTAMED 2 Data Mining : contexte Âge numérique : explosion des volumes de données Transactions commerciales Opérations bancaires Navigation Internet Indicateurs démographiques

Plus en détail

Le data mining met en œuvre un ensemble de techniques issues des statistiques, de l analyse de données et de l informatique pour explorer les données.

Le data mining met en œuvre un ensemble de techniques issues des statistiques, de l analyse de données et de l informatique pour explorer les données. COURS DE DATA MINING 3 : MODELISATION PRESENTATION GENERALE EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET Phase 4 : Modelisation 1 Classement des techniques

Plus en détail

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) 1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires

Plus en détail

Evry - M2 MIAGE Entrepôt de données

Evry - M2 MIAGE Entrepôt de données Evry - M2 MIAGE Entrepôt de données Introduction D. Ploix - M2 Miage - EDD - Introduction 1 Plan Positionnement du BI dans l entreprise Déclinaison fonctionnelle du décisionnel dans l entreprise Intégration

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 Data Mining Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 2 Plan Data mining : définition, utilisations et concepts Wolfram Alpha : extraction de données d'un compte

Plus en détail

ELOECM Conference2015

ELOECM Conference2015 ELOECM Conference2015 Dématérialisation de courriers ELO DocXtractor Florent Melchers Consultant Projet et Avant-vente f.melchers@elo-digital.fr Intérêt d une solution de dématérialisation Nos clients

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 3 - Data

BI = Business Intelligence Master Data-ScienceCours 3 - Data BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse UPMC 8 février 2015 Rappel L Informatique Décisionnelle (ID), en anglais Business Intelligence (BI), est l informatique à l usage

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Chapitre 2 : Conception de base de données relationnelle

Chapitre 2 : Conception de base de données relationnelle Chapitre 2 : Conception de base de données relationnelle Le modèle entité-association 1. Les concepts de base 1.1 Introduction Avant que la base de données ne prenne une forme utilisable par le SGBD il

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Accélérer l agilité de votre site de e-commerce. Cas client

Accélérer l agilité de votre site de e-commerce. Cas client Accélérer l agilité de votre site de e-commerce Cas client L agilité «outillée» devient nécessaire au delà d un certain facteur de complexité (clients x produits) Elevé Nombre de produits vendus Faible

Plus en détail

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies

Plus en détail

Utilisations des mathématiques à des fins opérationnelles

Utilisations des mathématiques à des fins opérationnelles Utilisations des mathématiques à des fins opérationnelles Michael Vandenbossche mvn@softcomputing.com Soft Computing 165 avenue de Bretagne 59000 Lille 1. Présentation 2. Indicateurs statistiques de base

Plus en détail

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac La classification 2012-2013 Fabien Chevalier Jérôme Le Bellac Introduction : Classification : méthode d analyse de données Objectif : Obtenir une représentation schématique simple d'un tableau de données

Plus en détail

Module 3 : Introduction à la Modélisation SOUS MODELER

Module 3 : Introduction à la Modélisation SOUS MODELER Module 3 : Introduction à la Modélisation SOUS MODELER 1 Techniques prédictives Passé pour prédire l avenir 2 Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur

Plus en détail

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données.

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données. Data Mining = Knowledge Discovery in Databases (KDD) = Fouille de données 1 Définition : Processus ou méthode qui extrait des connaissances «intéressantes» ou des motifs (patterns) à partir d une grande

Plus en détail

I. Bases de données. Exemples classiques d'applications BD. Besoins de description

I. Bases de données. Exemples classiques d'applications BD. Besoins de description I. Bases de données Exemples classiques d'applications BD Les besoins Qu est ce qu un SGBD, une BD Architecture d un SGBD Cycle de vie Plan du cours Gestion des personnels, étudiants, cours, inscriptions,...

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES

OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES ST50 - Projet de fin d études Matthieu Leromain - Génie Informatique Systèmes temps Réel, Embarqués et informatique Mobile - REM 1 Suiveur en entreprise

Plus en détail

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Conception de BDR et requêtes. Migration vers une BDR. Conception d'une BDR par Décomposition. Objectifs de la Décomposition

Conception de BDR et requêtes. Migration vers une BDR. Conception d'une BDR par Décomposition. Objectifs de la Décomposition Conception de BDR et requêtes Migration vers une BDR Approche décomposition Fragmentation Allocation des fragments Fragmentation de requêtes Optimisation de requêtes Décomposition en BD locales BD BD1

Plus en détail

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation Premières classifications : apprentissage et évaluation L objectif de ce TP est double : prise en main de la bibliothèque scikit-learn de Python, dédiée à l apprentissage automatique, sensibilisation à

Plus en détail

Construction à partir d une régression logistique

Construction à partir d une régression logistique Construction à partir d une régression logistique Ricco RAKOTOMALALA Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 PLAN 1. Position du problème Grille de score?

Plus en détail

Méthodes d apprentissage :

Méthodes d apprentissage : Méthodes d apprentissage : application au tri de complexes protéines-protéines Jérôme Azé Apprentissage: tâches Apprentissage non supervisé (Eisen, ) Apprentissage supervisé (arbres de décision, k-ppv,

Plus en détail

Module BDR Master d Informatique (SAR) Cours 5- bases de données parallèles Anne Doucet Anne.Doucet@lip6.fr

Module BDR Master d Informatique (SAR) Cours 5- bases de données parallèles Anne Doucet Anne.Doucet@lip6.fr Module BDR Master d Informatique (SAR) Cours 5- bases de données parallèles Anne Doucet Anne.Doucet@lip6.fr 1 Plan Introduction Architectures Placement des données Parallélisme dans les requêtes Optimisation

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Informatique Décisionnelle pour l environnement

Informatique Décisionnelle pour l environnement Territoires, Environnement, Télédétection et Information Spatiale Unité mixte de recherche AgroParisTech - Cirad - Irstea Informatique Décisionnelle pour l environnement Principe, architecture informatique

Plus en détail

Apprentissage supervisé

Apprentissage supervisé Apprentissage supervisé 1 Apprendre aux ordinateurs à apprendre Objectif : appliquer la démarche de l apprentissage par l exemple à l ordinateur. Montrer des exemples à l ordinateur en lui disant de quoi

Plus en détail

Réseaux neuronaux artificiels : exemples d applications géoscientifiques

Réseaux neuronaux artificiels : exemples d applications géoscientifiques Réseaux neuronaux artificiels : exemples d applications géoscientifiques Par Sylvain Trépanier CONSOREM, UQAM CONSOREM Consortium de recherche en exploration minérale Aurizon Cambior Majescor Falconbridge

Plus en détail

Cours Fouille de données avancée

Cours Fouille de données avancée Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Mohamed Khider - Biskra Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie Département d Informatique

Plus en détail

Prévision de la demande

Prévision de la demande But : Pour prendre des décisions relatives à la structure et au fonctionnement opérationnel de tout système logistique; il faut s appuyer sur un système de prévision fiable. Concerne le long, moyen et

Plus en détail

septembre 2008 DataLab

septembre 2008 DataLab septembre 2008 DataLab Comment réaliser un score performant en quelques minutes DataLab, Logiciel distribué par AMABIS www.amabis.com Tel 01 45 36 45 00 Solutions d Optimisation du Marketing Un aperçu

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

RAPPORT SUR L ETUDE DES DONNEES FINANCIERES ET STATISTIQUES A L AIDE DU LOGICIEL SCILAB

RAPPORT SUR L ETUDE DES DONNEES FINANCIERES ET STATISTIQUES A L AIDE DU LOGICIEL SCILAB RAPPORT SUR L ETUDE DES DONNEES FINANCIERES ET STATISTIQUES A L AIDE DU LOGICIEL SCILAB PAR : MAROOF ASIM DAN BENTOLILA WISSAM ESSID GROUPE 1 LM206 Lundi 10H45 INTRODUCTION : ( Ce rapport est un compte

Plus en détail

Intelligence Artificielle

Intelligence Artificielle Intelligence Artificielle p. 1/1 Intelligence Artificielle Les arbres de décisions Maria Malek Département Systèmes Informatiques Formels & Intelligents Intelligence Artificielle p. 2/1 Extraire les connaissances

Plus en détail

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme Distance et classification Cours 4: Traitement du signal et reconnaissance de forme Plan Introduction Pré-traitement Segmentation d images Morphologie mathématique Extraction de caractéristiques Classification

Plus en détail

Crédit Bureaux. des PME. Alger, le 12 mars 2009 Margherita GALLARELLO

Crédit Bureaux. des PME. Alger, le 12 mars 2009 Margherita GALLARELLO Le rôle des Crédit Bureaux pour l accès au crédit des PME 2009 Agenda L activité des Crédit Bureaux Sujets critiques pour les PME Crédit Bureaux: quels avantages pour les PME? Exemple d évaluation Conclusion

Plus en détail

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES STATISTIQUES I. Séries statistiques simples... 1 A. Définitions... 1 1. Population... 1 2. Caractère statistique... 1 B. Séries classées / représentations graphiques.... 2 1. Séries classées... 2 2. Représentations

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

Introduction à l'analyse statistique des données

Introduction à l'analyse statistique des données INTRODUCTION À L'ANALYSE STATISTIQUE DES DONNÉES CONCEPTS DE BASE Un certain nombre de concepts, préalables indispensables à la compréhension des analyses présentées, sont définis ici. De même pour quelques

Plus en détail

LA PROGRAMMATION LINEAIRE : UN OUTIL DE MODELISATION

LA PROGRAMMATION LINEAIRE : UN OUTIL DE MODELISATION LA PROGRAMMATION LINEAIRE : UN OUTIL DE MODELISATION Dans les leçons précédentes, nous avons modélisé des problèmes en utilisant des graphes. Nous abordons dans cette leçon un autre type de modélisation.

Plus en détail

Chapitre 5 LE MODELE ENTITE - ASSOCIATION

Chapitre 5 LE MODELE ENTITE - ASSOCIATION Chapitre 5 LE MODELE ENTITE - ASSOCIATION 1 Introduction Conception d une base de données Domaine d application complexe : description abstraite des concepts indépendamment de leur implémentation sous

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

Le Data Mining Techniques pour exploiter l information. Auteur : Dan Noël Date : 24.04.2009

Le Data Mining Techniques pour exploiter l information. Auteur : Dan Noël Date : 24.04.2009 Le Data Mining Techniques pour exploiter l information Auteur : Dan Noël Date : 24.04.2009 Agenda de la présentation du 26.03.2009 Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un

Plus en détail

Apprentissage statistique Stratégie du Data-Mining

Apprentissage statistique Stratégie du Data-Mining Apprentissage statistique Stratégie du Data-Mining Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Apprentissage statistique

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

COURS DE STATISTIQUES (24h)

COURS DE STATISTIQUES (24h) COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage(4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h) Qu est-ce que la statistique?

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Les bases de données

Les bases de données Les bases de données Introduction aux fonctions de tableur et logiciels ou langages spécialisés (MS-Access, Base, SQL ) Yves Roggeman Boulevard du Triomphe CP 212 B-1050 Bruxelles (Belgium) Idée intuitive

Plus en détail

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry Outils mathématiques pour le datamining http://wwwelsewarefr/univevry Géométrie Distance Distance entre parties Matrice de variance/covariance Inertie Minimisation Probabilités Définition Théorème de Bayes

Plus en détail

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions :

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions : Probabilités I- Expérience aléatoire, espace probabilisé : 1- Définitions : Ω : Ensemble dont les points w sont les résultats possibles de l expérience Des évènements A parties de Ω appartiennent à A une

Plus en détail

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2012-2013 B. Derbel L. Jourdan A. Liefooghe Contenu Classification

Plus en détail

Présentation de l épreuve

Présentation de l épreuve MÉTHODO Présentation de l épreuve 1. Programme de l arrêté du 22 décembre 2006 DURÉE DE L ENSEIGNEMENT ÉPREUVE N 11 CONTRÔLE DE GESTION (à titre indicatif) : 210 heures 18 crédits européens 1. Positionnement

Plus en détail

Searching for Dependencies at Multiple Abstraction Levels

Searching for Dependencies at Multiple Abstraction Levels Searching for Dependencies at Multiple Abstraction Levels Toon Calders, Raymond T. Ng et Jef Wijsen Matthieu Objois et Pierre Senellart Searching for Dependencies at Multiple Abstraction Levels p.1/15

Plus en détail

Formation Actuaire Data-Scientist PROGRAMME

Formation Actuaire Data-Scientist PROGRAMME Formation Actuaire Data-Scientist PROGRAMME 15 Septembre 2014 Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 Programme Séance inaugurale : révolu-on numérique besoins des entreprises cadre

Plus en détail

Cybermarché et analyse comportementale

Cybermarché et analyse comportementale Cybermarché et analyse comportementale Antoine-Eric Sammartino aesammartino@e-laser.fr Séminaire Data Mining - Educasoft Formations 18 juin 2001-1- MENU Le Groupe LaSer Le processus Data Mining L industrialisation

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Les arbres de décision

Les arbres de décision Les arbres de décision 25 Septembre 2007 Datamining 1 2007-2008 Plan 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining 2 2007-2008 Les données du Titanic Le partitionnement

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail