Règles d'association. Définition. Processus
|
|
- Aurélie Dumouchel
- il y a 8 ans
- Total affichages :
Transcription
1 Data Mining «Extraction de connaissances valides et exploitables à partir de grands volumes de données hétérogènes provenant de sources et de bases diverses»
2 Règles d'association Définition Extraction de liens de co-occurrence des données exprimés sous forme de règles d'implication conditionnelles Processus Ensemble de données constitué d'instances (lignes) chacune constituée d'un ensemble de valeurs (items) Extraire les liens significatifs entre les occurrences de valeurs dans les mêmes instances Pour chaque règle, mesures statistiques de portée et précision 2
3 Association : Exemple Transactions de ventes Transaction Articles achetés 1 lait, céréales, thé 2 lait, café, céréales, sucre 3 café, céréales, sucre 4 café, sucre 5 lait, café, céréales, sucre 6 café, céréales, sucre Objectif : déterminer quels articles sont le plus souvent achetés ensemble 3
4 Items et Itemsets Item : valeur d'une variable café, sucre, céréales, lait, thé Itemset : ensemble d'items 0-itemset : {} 1-itemsets : {café}, {sucre}, {céréales}, {lait}, {thé} 2-itemsets : {café, sucre}, {café, céréales}, 3-itemsets : {café, sucre, céréales}, {café, sucre, lait}, 4-itemsets : {café, sucre, céréales, lait}, 5-itemset : {café, sucre, céréales, lait, thé} 4
5 Support des Itemsets Support d'un itemset Proportion d'instances contenant l'itemset support (L) = COUNT(L) COUNT () support(café, sucre) = COUNT(café, sucre) / COUNT() = {2, 3, 4, 5, 6} / 6 = 5/ % Proportion : fréquence Effectif : comptage 5
6 Règles d'association Liens conditionnels dirigés entre itemsets café sucre «Les clients achetant du café achètent souvent du sucre en même temps» Connaissances à diverses niveaux de détail café, céréales sucre céréales café, sucre café, céréales lait, sucre Mesures statistiques calculées pour chaque règle Pertinence et utilité 6
7 Mesures Statistiques Support Proportion d'instances «contenant» la règle Support de l'union de l'antécédent et de la conséquence de la règle Association Support Transactions café sucre 5/6 (83.3%) 2,3,4,5,6 café, céréales sucre 4/6 (66.7%) 2,3,5,6 céréales café, sucre 4/6 (66.7%) 2,3,5,6 Fréquence de la règle dans l'ensemble de données 7
8 Mesures Statistiques Confiance Précision de la règle Proportion d'instances contenant la conséquence parmi celles contenant l'antécédent confiance = support (antécédent conséquence) support (antécédent) [0,1] confiance(céréales café, sucre) = support(céréales, café, sucre) / support(céréales) = COUNT(céréales, café,sucre) / COUNT(céréales) = 4/5 = 80% 8
9 Seuils de Support et Confiance Règles non-pertinentes et inutiles Faible support : nombre limité d'instances Faible confiance : nombreux contre-exemples Seuils minsupport et minconfiance Définition des seuils empirique Dépend des caractéristiques des données et de l'application 9
10 Confiance des Associations minsupport = 40 % minconfiance = 75 % Association Support Confiance café sucre 5/6 (83.3%) 5/5 (100%) café, céréales sucre 4/6 (66.7%) 4/4 (100%) céréales café, sucre 4/6 (66.7%) 4/5 (80%) café, céréales lait, sucre 2/6 (33.3%) 2/4 (50%) 10
11 Interprétation Probabiliste Support : probabilité simple Probabilité qu'une ligne prise au hasard contiennent les items support(café sucre) = 83,3% P(café, sucre) = 0,833 Confiance : probabilité conditionnelle Probabilité qu'une ligne contenant l'antécédent contienne aussi la conséquence confiance(céréales café, sucre) = 80% P(café, sucre céréales) =
12 Règles Exactes et Partielles Règles exactes : confiance = 100% Toutes les instances contenant l'antécédent contiennent aussi la conséquence Aucun contre-exemple Règle partielles : confiance < 100% Vérifiées par une proportion égale à leur confiance d'instances Règles d'implication qui tolèrent (100 confiance) % contre-exemples 12
13 Définition des Seuils Exemple : analyse de paniers d'achats «market basket analysis» Objectif : identifier les articles achetés ensemble Nombreux articles, nombreuses transactions Supports des items faibles minsupport < 10% Combinaisons identiques d'articles rares Aucune règle exacte, peu de règles de confiance > 50% minconfiance < 50% 13
14 Définition des Seuils Exemple : aide au diagnostic Objectif : diagnostic prévisionnel en fonction des mesures physiologiques et des données socio-démographiques Identifier tous les cas possibles Règles concernant de petits groupes intéressantes minsupport < 20% Les règles utiles représentent une majorité de cas Bonne précision requise minconfiance > 50% 14
15 Définition des Seuils Exemple : analyse de recensements / sondages Objectif : identifier les tendances principales d'une population Nombre d'instances important Tendances marginales (rares) ne nous intéressent pas minsupport > 20% Données fortement corrélées et denses Nombre de règles très important minconfiance > 50% 15
16 Processus Source de données Bases de données, SI, fichiers, ontologies/taxonomies B Pré-traitement intégration normalisation discrétisation généralisation spécialisation A D F C E Visualisation Graphes, tables, matrices, histogrammes 3D Affichage sélection représentation Matrice de données Relation binaire instances - items Association A B A C AB CD AC D supp 20% 44% 32% 25% Extraction minsupport minconfiance paramètres conf 87% 66% 80% 60% Règles d'association Ordre de tri, généralisation, spécialisation 16
17 Variables Numériques Données numériques continues Exemples : Age [18, 80], Revenus [0.0, ] Prendre chaque valeur comme un item Supports faibles : minsupport doit être faible Règles spécifiques à chaque valeur Age = 18 Acheteur = Oui (support 2.0%, confiance 60%) Age = 19 Acheteur = Oui (support 1.8%, confiance 61%) Age = 20 Acheteur = Oui (support 2.3%, confiance 59%) Problèmes Nombre de règles important Interprétation complexe, non généralisation 17
18 Discrétisation Item : intervalle ou ensemble de valeurs Exemple : Age = [18..30[, Age = [30..50[, Age = [50..80] Support des intervalles plus importants (somme) Règles par intervalles de valeurs Age = [18..30] Acheteur = Oui (support 24.0%, confiance 60%) Moins de contraintes sur minsupport Avantages Nombre de règles extraites réduit Simplification de l'interprétation Tenir compte de la sémantique de l'application 18
19 Intervalles Égaux «En largeur» Largeurs des intervalles identiques Exemple : [0..100], [ ], [ ] Paramètre : nombre d'intervalles Défini leur taille Interprétation simple Écarts importants des fréquences problématiques 19
20 Effectifs égaux «En profondeur» ou par quantiles Nombres d'instances proches pour chaque intervalle Poids identique des intervalles Paramètre : nombre d'intervalles Défini les supports des items résultants Découpage peut complexifier l'interprétation 20
21 Sémantiques Heuristiques Moyenne (μ), écart type (ε), paramètre (β) ]-, μ - β.ε[, [μ - β.ε, μ + β.ε], ]μ + β.ε, + [ Rangs, etc. Groupes sémantiques Seuils significatifs en fonction des objectifs Ex : taux remboursements = 33% revenus, age < 18 Répartition intrinsèque des valeurs Exploration des données (domaine de valeurs, effectifs, histogramme, nuage de points, etc.) 21
22 Discrétisation : Exemple Variable Age Histogramme des effectifs Nombre d'instances Valeurs de Age 22
23 Discrétisation : Exemple Répartition homogène : discrétisation en largeur Paramètre : 4 intervalles Nombre d'instances Valeurs de Age 23
24 Discrétisation : Exemple Proportions des valeurs Intervalle Contrainte : minsupport 23.7% Effectifs équilibrés Fréquence Nombre d'instances 24
25 Discrétisation : Exemple Variable Age Histogramme des effectifs Nombre d'instances Valeurs de Age 25
26 Discrétisation : Exemple Discrétisation en largeur Paramètre : 4 intervalles Nombre d'instances Valeurs de Age 26
27 Discrétisation : Exemple Proportions des valeurs Intervalle Contrainte : minsupport 3.54% Effectifs déséquilibrés Fréquence Nombre d'instances 27
28 Discrétisation : Exemple Paramètre : 4 quantiles Proportions des valeurs Contrainte : minsupport 23.01% Effectifs équilibrés 28
29 Discrétisation Hiérarchique Décomposition hiérarchique des intervalles Valeurs de Age Supports Généralisation Spécialisation
30 Visualisations Graphiques Réseaux : graphe des liens duaux 30
31 Visualisations Graphiques Histogramme des liens duaux 31
32 Visualisations Graphiques Histogramme des liens duaux 32
33 Visualisations Graphiques «Bouliers» Valeurs de la mesure 33
34 Matrices Antécédent Conséquence 34
35 Visualisation Techniques graphiques Adaptées à la recherche d'informations spécifiques Peu adaptées à l'exploration de l'espace des règles Liste ordonnées de règles Tri par tailles : règle, antécédent, conséquence Tri par mesures : supports, confiance, lift, support x confiance, etc. Sélection de sous-espaces «Templates» : expression régulières Item(s) en antécédent, conséquence, les deux 35
36 Exploration Représentation textuelle Tri Sélection 36
37 Règles de Classification 37
38 Extraction : Difficultés Efficacité : temps d extraction Espace de recherche de taille exponentielle Pour N items : O(2N) règles potentiellement valides Taille des jeux de données importante 10 items : règles possibles 50 items : règles possibles Ex : Walmart, plusieurs millions de transactions quotidiennement Coût des parcours de l'ensemble de données Temps d'accès mémoires secondaires 38
39 Extraction : Difficultés Utilité et pertinence des règles extraites Nombre de règles très important Dépend de la densité des données (nombre moyens d'items par ligne) Dépend de la corrélation des données Souvent plusieurs milliers Règles redondantes céréales sucre lait (supp=5%, conf=50%) céréales sucre café lait (supp=5%, conf=50%) 39
40 Méthode Générale Approche classique 1.Extraction des itemsets fréquents et leur support Itemset L fréquent si support(l) minsupport 2.Génération des règles d association valides et leur confiance A partir des itemsets fréquents Association R valide si confiance(r) minconfiance 40
41 Exemple Ensemble de données Transactions Object Items 1 A C D 2 A B C 3 B C E 4 B E 5 A B C 6 B C E E E Relation binaire OID A B C D A=lait, B=café, C=céréales, D=thé, E=sucre Ordre : A < B < C < D < E E
42 Espace de Recherche Treillis des itemsets (treillis des parties) ABCDE minsupport = 2/6 ABCE ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE A B C E D itemset fréquent Ø itemset infréquent 42
43 Extraction des Itemsets Méthode triviale Compter le support de tous les itemsets potentiels Un seul balayage de l'ensemble de données Inapplicable : espace de recherche trop important Nécessité de développer des algorithmes efficaces Limiter le nombre de balayages Limiter le nombre d'itemsets considérés Nombre d opérations 43
44 Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE 1-itemsets candidats ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE A B C E 11 D itemset fréquent Ø itemset infréquent 44
45 Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE Supports A B C E D 3/6 5/6 5/6 5/6 1/6 11 itemset fréquent Ø itemset infréquent 45
46 Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE 1-itemsets fréquents ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 46
47 Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE 2-itemsets candidats ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE A B C E 3/6 5/6 5/6 5/ D itemset fréquent Ø itemset infréquent 47
48 Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE Supports ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE 2/6 3/6 2/6 5/6 4/6 4/6 A B C E 3/6 5/6 5/6 5/ D itemset fréquent Ø itemset infréquent 48
49 Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE 3-itemsets candidats ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE 33 AB AC AE BE BC CE AD CD BD DE 2/6 3/6 2/6 5/6 4/6 4/6 22 A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 49
50 Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE Supports ABCD ABDE ACDE BCDE ABD ACD BCD ADE BDE CDE 33 BE BC CE AD CD BD DE 5/6 4/6 4/6 22 ABC ABE ACE BCE 2/6 2/6 2/6 4/6 AB AC AE 2/6 3/6 2/6 A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 50
51 Approche par Niveaux «levelwise approach» Itération Itération ABCDE 4-itemset candidats ABCE ABCD ABDE ACDE 44 BCDE ABD ACD BCD ADE BDE CDE 33 BE BC CE AD CD BD DE 5/6 4/6 4/6 22 ABC ABE ACE BCE 2/6 2/6 2/6 4/6 AB AC AE 2/6 3/6 2/6 A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 51
52 Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE Support ABCD ABDE ACDE 44 BCDE 2/6 ABD ACD BCD ADE BDE CDE 33 BE BC CE AD CD BD DE 5/6 4/6 4/6 22 ABC ABE ACE BCE 2/6 2/6 2/6 4/6 AB AC AE 2/6 3/6 2/6 A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 52
53 Algorithme Apriori calculer le support de chaque item générer les 1-itemsets fréquents k 2 répéter joindre les (k-1)-itemsets fréquents pour former les k-candidats supprimer les k-candidats ayant un (k-1)-subset non-fréquent pour chaque instance o de la matrice de données faire pour chaque k-candidat inclus dans o faire support++ fin pour fin pour supprimer les k-candidats non-fréquents k++ tant que plusieurs k-candidats fréquents 53
54 Apriori : Génération des Candidats Exemple : k=4 3-itemsets fréquents : {ABC, ABD, ACD, ACE, BCD} Jointure des 3-itemsets de même préfixe (ligne 5.) ABC et ABD : ABCD ACD et ACE : ACDE Élagage des 3-itemsets candidats inutiles (ligne 6.) ABCD conservé : ABC, ABD, ACD, BCD fréquents ACDE supprimé : ADE non-fréquent 4-itemsets candidats : {ABCD} 54
55 Apriori : Exemple minsupport = 2/6 C1 C1 candidat A B C D E Balayage candidat support A B C D E 3/6 5/6 5/6 1/6 5/6 candidat Balayage support AB AC AE BC BE CE 2/6 3/6 2/6 4/6 5/6 4/6 A B C E 3/6 5/6 5/6 5/6 Suppression infréquents itemset support AB AC AE BC BE CE 2/6 3/6 2/6 4/6 5/6 4/6 Balayage F3 candidat support ABC ABE ACE BCE 2/6 2/6 2/6 4/6 C4 C4 ABCE support C3 candidat candidat itemset F2 candidat C3 ABC ABE ACE BCE Suppression infréquents C2 C2 AB AC AE BC BE CE F1 Balayage candidat support ABCE 2/6 Suppression infréquents Suppression infréquents itemset support ABC ABE ACE BCE 2/6 2/6 2/6 4/6 F4 itemset support ABCE 2/6 55
56 Apriori : Exemple minconfiance = 2/3 F4 itemset Règles valides F3 support ABCE 2/6 1 2 itemset support règle ABC ABE ACE BCE 2/6 2/6 2/6 4/6 ABC ABE ACE BCE F2 3 confiance E C B A 2/2 2/2 2/2 2/4 Règles valides itemset support AB AC AE BC BE CE 2/6 3/6 2/6 4/6 5/6 4/6 règle AB CE AC BE AE BC confiance 2/2 2/3 2/2 Règles valides F1 itemset support A B C E 3/6 5/6 5/6 5/6 règle A BCE confiance 2/3 56
57 Limites de la Confiance Items de fréquence élevée Nombreuses règles Confiance élevée Table de contingence support(dvd, livre) = 40% livre livre Σ DVD DVD Σ support(livre) = 75% support(dvd) = 60% instances 57
58 Limites de la Confiance Exemple DVD livre (support = 40%, confiance= 66%) Personnes achetant un DVD : 66% achètent un livre support(livre) = 75% livre (support = 75%, confiance= 75%) Toutes les personnes : 75% achètent un livre Achats de livres et DVD négativement corrélés Items de fréquence élevée Table de contingence Filtrage par corrélation (lift, conviction, etc.) 58
59 Mesure du Lift Lift : tient compte de la fréquence de la conséquence lift = P(antécédent conséquence) P(antécédent) P(conséquence) [0,+ [ Corrélation statistique entre antécédent et conséquence lift < 1 : corrélation négative lift = 1 : indépendance lift > 1 : corrélation positive Filtrage : minlift =
60 Mesure du Lift Exemple P(DVD, livre) = 0.4 livre livre Σ DVD DVD Σ P(DVD) = 0.6 P(livre) = 0.75 P(DVD, livre) lift(dvd livre) = P(DVD) x P(livre) = 0.4 / (0.6 x 0.75) = 0.89 Règle non-pertinente 60
61 Mesure de la Conviction Conviction : tient compte de l'absence de la conséquence P(antécédent) P( conséquence) conviction = P(antécédent conséquence) [0,+ [ Corrélation statistique entre antécédent et conséquence conviction > 1 : corrélation positive conviction = 1 : indépendance conviction < 1 : corrélation négative Filtrage : minconviction =
62 Mesure de la Conviction Exemple livre livre Σ DVD DVD Σ P(DVD, livre) = 0.2 P(DVD) = 0.6 P( livre) = 0.25 P(DVD) x P( livre) conviction(dvd livre) = P(DVD, livre) = (0.6 x 0.25) / 0.2 = 0.75 Règle non-pertinente 62
63 Lift et Conviction Lift : mesure non directionnelle Conviction : coûts des calculs lift(a C) = lift(c A) support(a C) Mesures non null-invariant Données A1 A2 A3 A4 AC AC A C A C Règle confiance lift conviction A C 91% A C 91% A C 91% A C 91% Sensibles au nombre d'instances 63
64 Mesure du Cosine Cosine : mesure null-invariant, non-directionnelle P(antécédent conséquence) cosine = (P(antécédent) P(conséquence)) [0,1[ Corrélation statistique cosine > 0.5 : corrélation positive cosine = 0.5 : indépendance cosine < 0.5 : corrélation négative 64
65 Mesure du Cosine Null-invariant Données A1 A2 A3 A4 AC A C A C confiance lift conviction cosine % % % % COUNT(A) = COUNT(C) = 1100 AC confiance = cosine, pas le cas général Inconvénient Mesure non-linéaire 65
66 Limites du Cosine Exemple P(DVD, livre) = 0.4 livre livre Σ DVD DVD Σ P(DVD) = 0.6 P(livre) = 0.75 P(DVD, livre) SQRT(P(DVD) x P( livre)) = 0.4 / SQRT(0.75 x 0.6) = 0.6 cosine(dvd livre) = Valeurs «proches» de 0.5 non-significatives 66
67 Propriétés des Mesures Mesure confiance lift Corrélation Null-invariant Interprétabilité Directionnelle Supports N O O O O O N O N O χ2 O N O N N conviction cosine O O N O O N O N N O Propriété Validité statistique Evaluation indépendante des autres instances Valeurs Distingue les linéairement liens A C et proportionnel- C A les à la force du lien Calcul à partir des supports seuls 67
68 Quelles Mesures? Support nécessaire Taille de la population concernée Optimal : une mesure pour chaque propriété Souvent : support, confiance, lift Coût des calculs (ex : 2) Autres mesures j-mesure, i-mesure, déviation, information gain, gini index, p-value, etc. 68
69 Exemple : Classification «Credit scoring» Objectif : modèle de prédiction de l'accord ou refus d'un crédit Ensemble d'apprentissage Instance : client Variables Classe : accord, refus Situation familiale : genre, age, statut marital Revenus : ancienneté emploi, revenus emploi, revenus conjoint, autres revenus Passif : dette actuelle, remboursement mensuel 69
70 Description des Variables Variable Type Description Id Entier Numéro identifiant de la demande Genre Catégoriel Genre de la personne Age Entier Age du client en années Anciennete_emploi Entier Nombre d années d ancienneté dans l emploi (manquantes 99) Revenus_emploi Entier Salaire mensuel de l emploi (manquantes 9999) Autres_revenus Entier Revenus additionnels hors emploi Dette_actuelle Entier Montant du par le client (hypothèque exclue) au moment de la demande Remb_mensuels Entier Montant des mensualités de remboursement de la dette actuelle Revenus_conjoint Entier Revenus du conjoint (manquantes 9999) Marie Booléen Statut marital Classe Classe Accord de crédit 70
71 Ensemble de Données 71
72 Préparation des Données Sélection Suppression de Id Valeurs manquantes Variables : Ancienneté_emploi, Revenus_emploi, Revenus_conjoint Valeurs spécifiques : 99, 9999 Supprimer les lignes / variables Perte d'information Codage «valeur inconnue» Clementine : $null$, Weka/Orange/RapidMiner :? 72
73 Valeurs Manquantes 73
74 Discrétisation Variable Type Description Genre Catégoriel Genre de la personne Age Entier Age du client en années Anciennete_emploi Entier Nombre d années d ancienneté dans l emploi (manquantes 99) Revenus_emploi Entier Salaire mensuel de l emploi (manquantes 9999) Autres_revenus Entier Revenus additionnels hors emploi Dette_actuelle Entier Montant du par le client (hypothèque exclue) au moment de la demande Remb_mensuels Entier Montant des mensualités de remboursement de la dette actuelle Revenus_conjoint Entier Revenus du conjoint (manquantes 9999) Marie Booléen Statut marital Classe Classe Accord de crédit 74
75 Discrétisation : Revenus_emploi Histogramme Valeurs : Revenus_emploi Couleur : Classe Barres : effectifs 75
76 Discrétisation : Revenus_emploi Histogramme Taux de refus distincts [250, 750[ [750, 1050[ [1050, 1650[ [1650, 2500[ [2500, 4000] Groupes sémantiques 76
77 Effectifs des Intervalles Écarts d'effectifs [250, 750[ [750, 1050[ [1050, 1650[ [1650, 2500[ [2500, 4000] = 45 = 30 = 19 = 11 =2 (support 42 %) (support 28 %) (support 18 %) (support 10 %) (support 2 %) Découper et regrouper pour minimiser les écarts [250, 600[ [600, 750[ [750, 1050[ [1050, 1650[ [1650, 4000] = 20 = 25 = 30 = 19 = 13 (support = 19 %) (support = 23 %) (support = 28 %) (support = 18 %) (support = 12 %) 77
78 Discrétisation : Ancienneté_emploi Pas de groupes sémantiques Répartition nonhomogène : discrétisation en largeur inefficace Solution : quantiles Paramètre : # quantiles Détermine les supports 78
79 Discrétisation : Ancienneté_emploi Paramètre : 5 quantiles Proportions des intervalles Effectifs proches 79
80 Discrétisation : Autres_revenus Valeur 0 majoritaire Pas de groupes sémantiques Discrétisation Intervalles égaux inefficace Quantiles inefficaces Binarisation Autres_revenus = 0 Autres_revenus > 0 80
81 Discrétisation : Autres_revenus Proportions des valeurs booléennes Règles extraites non concluantes Revenir sur cette phase (ex : discrétisation en 2 ou 3 intervalles) 81
82 Discrétisation : Revenus_conjoint Statistiques Nombre de valeurs non nulles faible Si nombre élevé d'intervalles Effectifs faibles Support faibles 82
83 Discrétisation : Revenus_conjoint Répartition nonhomogène Discrétisation : quantiles 32 valeurs 3 intervalles Effectif moyen
84 Discrétisation : Revenus_conjoint Paramètre : 3 quantiles Effectifs proches Contrainte minsupport
85 Données Discrétisées 85
86 Paramètres d'extraction minsupport Détermine les items pouvant apparaître dans les règles Support minimal des items : 8,85 % minsupport = 8 % minconfiance Précision minimale des règles Taux de contre-exemples : 100% - minconfiance minconfiance = 80 % 86
87 Paramètres d'extraction Autres paramètres Dépendent du logiciel et des options choisies Exemple : taille maximale des règles 87
88 Paramètres d'extraction Type de règles Règles de classification Conséquence Valeurs de la variable de classe Classe=accordé, Classe=refusé Antécédent Valeurs des variables prédictives Genre,, Marié 88
89 Règles Extraites 89
90 Filtrage Simplification et redondances Mesures identiques, antécédents liés par inclusion Exemple Age = [39,78[ Remb. = Aucun Classe = accordé Age = [39,78[ Dette = Aucune Classe = accordé Age = [39,78[ Remb. = aucun Dette = aucune Classe = accordé Vrai pour toutes les règles extraites Lien fort entre Remb. Mensuels et Dette actuelle Revenir sur la préparation pour supprimer le moins utile Dette actuelle (cf. répartition des valeurs et sémantique) 90
91 Filtrage Critère : différence de confiance 30 91
92 Processus Itératif Règles non pertinentes Modifier les paramètres minsupport, minconfiance, taille des règles, etc. Revenir sur la préparation Autres discrétisations, variables calculées Intégrer ou supprimer des variables Parfois, les données disponibles ne permettent pas d'atteindre les objectifs 92
93 Perspectives Règles multi-niveaux Taxonomies d'items, hiérarchies de valeurs (discrétisation) Généralisation et spécialisation Intégration de connaissances Bases de connaissances, ontologies Classes d'équivalence des itemsets Fermeture de Galois Couvertures minimales (bases) Ensembles minimaux de règles sans perte d'information 93
LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.
Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.fr 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de
Plus en détailRépublique Algérienne Démocratique et Populaire
République Algérienne Démocratique et Populaire وزارة التعليم العالي والبحث العلمي Ministère de l Enseignement Supérieur et de la Recherche Scientifique UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE d ORAN
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détail2.4 Représentation graphique, tableau de Karnaugh
2 Fonctions binaires 45 2.4 Représentation graphique, tableau de Karnaugh On peut définir complètement une fonction binaire en dressant son tableau de Karnaugh, table de vérité à 2 n cases pour n variables
Plus en détailEtude d Algorithmes Parallèles de Data Mining
REPUBLIQUE TUNISIENNE MINISTERE DE L ENSEIGNEMENT SUPERIEUR, DE LA TECHNOLOGIE ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE DE TUNIS ELMANAR FACULTE DES SCIENCES DE TUNIS DEPARTEMENT DES SCIENCES DE L INFORMATIQUE
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailINTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Plus en détailExtraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailIntégration de la dimension sémantique dans les réseaux sociaux
Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Contexte : Recommandation dans les réseaux sociaux
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailIntelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailPRODIGE V3. Manuel utilisateurs. Consultation des métadonnées
PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.
Plus en détailAméliorer les performances du site par l'utilisation de techniques de Web Mining
Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailVisualisation en Fouille de Données
Université Nice Sophia Antipolis Master Informatique, Fondements & Ingénierie (IFI) Visualisation en Fouille de Données Elaboré par : Abir DILOU Mouna REKIK Encadré par : Mr. Nicolas PASQUIER Année universitaire
Plus en détailAnnexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Plus en détailPRODIGE V3. Manuel utilisateurs. Consultation des métadonnées
PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailDécouverte du tableur CellSheet
Découverte du tableur CellSheet l application pour TI-83 Plus et TI-84 Plus. Réalisé par Guy Juge Professeur de mathématiques et formateur IUFM de l académie de Caen Pour l équipe des formateurs T 3 Teachers
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailPourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Plus en détailData Mining. Master 1 Informatique - Mathématiques UAG
Data Mining Master 1 Informatique - Mathématiques UAG 1.1 - Introduction Data Mining? On parle de Fouille de données Data Mining Extraction de connaissances à partir de données Knowledge Discovery in Data
Plus en détailBaccalauréat ES/L Amérique du Sud 21 novembre 2013
Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée
Plus en détailGéométrie discrète Chapitre V
Géométrie discrète Chapitre V Introduction au traitement d'images Géométrie euclidienne : espace continu Géométrie discrète (GD) : espace discrétisé notamment en grille de pixels GD définition des objets
Plus en détailCOURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume
COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION Jean-Loup Guillaume Le cours Enseignant : Jean-Loup Guillaume équipe Complex Network Page du cours : http://jlguillaume.free.fr/www/teaching-syrres.php Évaluation
Plus en détail1. Vocabulaire : Introduction au tableau élémentaire
L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie
Plus en détailLes algorithmes de fouille de données
Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités
Plus en détailSommaire. BilanStat manuel de présentation et d utilisation Page 2
BilanStat-Audit Sommaire Présentation... 3 Chapitre 0 : Gestion des bases de données... 5 Chapitre 0 : Gestion des missions... 12 Chapitre 1 : Eléments généraux... 17 Chapitre 2 : Capitaux propres... 28
Plus en détailIFT1215 Introduction aux systèmes informatiques
Introduction aux circuits logiques de base IFT25 Architecture en couches Niveau 5 Niveau 4 Niveau 3 Niveau 2 Niveau Niveau Couche des langages d application Traduction (compilateur) Couche du langage d
Plus en détailApplication de K-means à la définition du nombre de VM optimal dans un cloud
Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février
Plus en détailNote de cours. Introduction à Excel 2007
Note de cours Introduction à Excel 2007 par Armande Pinette Cégep du Vieux Montréal Excel 2007 Page: 2 de 47 Table des matières Comment aller chercher un document sur CVMVirtuel?... 8 Souris... 8 Clavier
Plus en détailAlgorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Plus en détailIBM SPSS Direct Marketing 21
IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS
Plus en détailExercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015
Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par
Plus en détailStructure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Plus en détailHistorique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications
L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d
Plus en détailL analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :
La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.
Plus en détailExercices Corrigés Premières notions sur les espaces vectoriels
Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3
Plus en détailCahier des clauses techniques particulières (C.C.T.P.)
Cahier des clauses techniques particulières (C.C.T.P.) Marché de maintenance et travaux d entretien de serrurerie passé selon la procédure adaptée prévue par l'article 28 du code des marchés publics (CMP).
Plus en détailActivités numériques [13 Points]
N du candidat L emploi de la calculatrice est autorisé. Le soin, la qualité de la présentation entrent pour 2 points dans l appréciation des copies. Les résultats seront soulignés. La correction est disponible
Plus en détailBaccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé
Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé EXERCICE 1 5 points Commun à tous les candidats 1. Réponse c : ln(10)+2 ln ( 10e 2) = ln(10)+ln ( e 2) = ln(10)+2 2. Réponse b : n 13 0,7 n 0,01
Plus en détailBusiness & High Technology
UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...
Plus en détailEntrepôt de données 1. Introduction
Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de
Plus en détailBases de Données. Plan
Université Mohammed V- Agdal Ecole Mohammadia d'ingénieurs Rabat Bases de Données Mr N.EL FADDOULI 2014-2015 Plan Généralités: Définition de Bases de Données Le modèle relationnel Algèbre relationnelle
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailMémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»
Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» 46, rue de la Tour 75116 Paris tél. (33) 01 73 00 55 00 fax (33) 01 73 00 55 01 www.softcomputing.com Sommaire
Plus en détailTraitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining
Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Mostafa HANOUNE*, Fouzia BENABBOU* *Université Hassan II- Mohammedia, Faculté des sciences
Plus en détail4. Utilisation d un SGBD : le langage SQL. 5. Normalisation
Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :
Plus en détailIntroduction à MATLAB R
Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d
Plus en détailBaccalauréat ES Pondichéry 7 avril 2014 Corrigé
Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient
Plus en détailUne méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailCours Premier semestre
C.Belleudy, D.Gaffé Université de Nice-Sophia Antipolis DEUG Première année SM,MP,MI UECS EEA Électronique Numérique Cours Premier semestre C. Belleudy, D.Gaffé version 3. 2 Électronique Numérique Chapitre
Plus en détail1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Plus en détailLE PETIT RELATION CLIENT. Les pratiques clés en 15 fiches. Nathalie Houver
LE PETIT 2014 RELATION CLIENT Les pratiques clés en 15 fiches Nathalie Houver Dunod, Paris, 2014 ISBN 978-2-10-070826-0 Table des matières LA PRÉPARATION DE LA RELATION COMMERCIALE FICHE 1 Acquérir la
Plus en détailLogiciel Libre Cours 3 Fondements: Génie Logiciel
Logiciel Libre Cours 3 Fondements: Génie Logiciel Stefano Zacchiroli zack@pps.univ-paris-diderot.fr Laboratoire PPS, Université Paris Diderot 2013 2014 URL http://upsilon.cc/zack/teaching/1314/freesoftware/
Plus en détailHervé Couturier EVP, SAP Technology Development
Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud
Plus en détailAPPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE
SûretéGlobale.Org La Guitonnière 49770 La Meignanne Téléphone : +33 241 777 886 Télécopie : +33 241 200 987 Portable : +33 6 83 01 01 80 Adresse de messagerie : c.courtois@sureteglobale.org APPORT DES
Plus en détailProjet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies
Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Régis Boulet Charlie Demené Alexis Guyot Balthazar Neveu Guillaume Tartavel Sommaire Sommaire... 1 Structure
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailInstruments financiers et comptabilité de couverture : de nouveaux principes français en préparation
Instruments financiers et comptabilité de couverture : de nouveaux principes français en préparation Conférence IMA du 05 avril 2012 Isabelle SAPET, Associée Programme 1. Introduction 2. Classification
Plus en détailBusiness Intelligence
avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................
Plus en détailPremière partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015
Énoncé Soit V un espace vectoriel réel. L espace vectoriel des endomorphismes de V est désigné par L(V ). Lorsque f L(V ) et k N, on désigne par f 0 = Id V, f k = f k f la composée de f avec lui même k
Plus en détailAlgèbre binaire et Circuits logiques (2007-2008)
Université Mohammed V Faculté des Sciences Département de Mathématiques et Informatique Filière : SMI Algèbre binaire et Circuits logiques (27-28) Prof. Abdelhakim El Imrani Plan. Algèbre de Boole 2. Circuits
Plus en détailStatistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
Plus en détailL ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
Plus en détailet les Systèmes Multidimensionnels
Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détailBusiness Intelligence avec Excel, Power BI et Office 365
Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10
Plus en détailQuatrième partie IV. Test. Test 15 février 2008 1 / 71
Quatrième partie IV Test Test 15 février 2008 1 / 71 Outline Introduction 1 Introduction 2 Analyse statique 3 Test dynamique Test fonctionnel et structurel Test structurel Test fonctionnel 4 Conclusion
Plus en détailLe risque Idiosyncrasique
Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Plus en détailUFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES
Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détailM06/5/COMSC/SP1/FRE/TZ0/XX INFORMATIQUE NIVEAU MOYEN ÉPREUVE 1. Mardi 2 mai 2006 (après-midi) 1 heure 30 minutes INSTRUCTIONS DESTINÉES AUX CANDIDATS
IB INFORMATIQUE NIVEAU MOYEN ÉPREUVE 1 DIPLOMA PROGRAMME PROGRAMME DU DIPLÔME DU BI PROGRAMA DEL DIPLOMA DEL BI M06/5/COMSC/SP1/FRE/TZ0/XX 22067017 Mardi 2 mai 2006 (après-midi) 1 heure 30 minutes INSTRUCTIONS
Plus en détailÉtude des formes de pratiques de la gymnastique sportive enseignées en EPS à l école primaire
Étude des formes de pratiques de la gymnastique sportive enseignées en EPS à l école primaire Stéphanie Demonchaux To cite this version: Stéphanie Demonchaux. Étude des formes de pratiques de la gymnastique
Plus en détailINTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailLimitations of the Playstation 3 for High Performance Cluster Computing
Introduction Plan Limitations of the Playstation 3 for High Performance Cluster Computing July 2007 Introduction Plan Introduction Intérêts de la PS3 : rapide et puissante bon marché L utiliser pour faire
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailUEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.
UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases
Plus en détailPentaho Business Analytics Intégrer > Explorer > Prévoir
Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho lie étroitement intégration de données et analytique. En effet, les services informatiques et les utilisateurs métiers peuvent accéder aux
Plus en détailMasses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA
Masses de données 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA Rédacteurs : Mjo Huguet / N. Jozefowiez 1. Introduction : Besoins Informations et Aide
Plus en détailSOMMAIRE. Travailler avec les requêtes... 3
Access Les requêtes SOMMAIRE Travailler avec les requêtes... 3 A) Créer une requête sélection en mode QBE... 3 B) Exécuter une requête à partir du mode Modifier (QBE)... 3 C) Passer du mode Feuille de
Plus en détailNOTATIONS PRÉLIMINAIRES
Pour le Jeudi 14 Octobre 2010 NOTATIONS Soit V un espace vectoriel réel ; l'espace vectoriel des endomorphismes de l'espace vectoriel V est désigné par L(V ). Soit f un endomorphisme de l'espace vectoriel
Plus en détailPlan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation
Data WareHouse Plan Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation 2 Présentation Besoin: prise de décisions
Plus en détailEXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version 1.0 30/11/05
EXCEL PERFECTIONNEMENT Version 1.0 30/11/05 SERVICE INFORMATIQUE TABLE DES MATIERES 1RAPPELS...3 1.1RACCOURCIS CLAVIER & SOURIS... 3 1.2NAVIGUER DANS UNE FEUILLE ET UN CLASSEUR... 3 1.3PERSONNALISER LA
Plus en détailCHAPITRE VIII : Les circuits avec résistances ohmiques
CHAPITRE VIII : Les circuits avec résistances ohmiques VIII. 1 Ce chapitre porte sur les courants et les différences de potentiel dans les circuits. VIII.1 : Les résistances en série et en parallèle On
Plus en détailExcel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur
Excel Avancé Plan Outils de résolution La valeur cible Le solveur Interactivité dans les feuilles Fonctions de recherche (ex: RechercheV) Utilisation de la barre d outils «Formulaires» Outils de simulation
Plus en détailFctsAffines.nb 1. Mathématiques, 1-ère année Edition 2007-2008. Fonctions affines
FctsAffines.nb 1 Mathématiques, 1-ère année Edition 2007-2008 Fonctions affines Supports de cours de mathématiques de degré secondaire II, lien hpertete vers la page mère http://www.deleze.name/marcel/sec2/inde.html
Plus en détailLIVRE BLANC Décembre 2014
PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis
Plus en détailAccélérer l agilité de votre site de e-commerce. Cas client
Accélérer l agilité de votre site de e-commerce Cas client L agilité «outillée» devient nécessaire au delà d un certain facteur de complexité (clients x produits) Elevé Nombre de produits vendus Faible
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détail