Découverte des dépendances fonctionnelles conditionnelles fréquentes
|
|
|
- Josiane Laberge
- il y a 10 ans
- Total affichages :
Transcription
1 Découverte des dépendances fonctionnelles conditionnelles fréquentes Thierno Diallo et Noël Novelli Université de Lyon, LIRIS, CNRS-UMR av, Jean Capelle, Villeurbanne Cedex, France [email protected] Université de la Méditerranée, LIF, CNRS-UMR6166 Fac. des Sc. de Luminy, 163 avenue de Luminy, Marseille Cedex 9, France [email protected] Résumé. Les Dépendances Fonctionnelles Conditionnelles (DFC) ont été introduites en 2007 pour le nettoyage des données. Elles peuvent être considérées comme une unification de Dépendances Fonctionnelles (DF) classiques et de Règles d Association (RA) puisqu elles permettent de spécifier des dépendances mixant des attributs et des couples de la forme attribut/valeur. Dans cet article, nous traitons le problème de la découverte des DFC, i.e. déterminer une couverture de l ensemble des DFC satisfaites par une relation r. Nous montrons comment une technique connue pour la découverte des DF (exactes et approximatives) peut être étendue aux DFC. Cette technique a été implémentée et des expériences ont été menées pour montrer la faisabilité et le passage à l échelle de notre proposition. Mots clés: Dépendances entre données, Fouille de données, Théorie des bases de données. 1 Introduction Les précédents travaux sur l amélioration de la qualité des données s appuient principalement sur les classes de contraintes traditionnelles telles que les DF ou encore les DF Approximatives (Kivinen et Mannila (1995)). Même si les mesures g 1, g 2, et g 3 pour les DF Approximatives capturent certaines erreurs, leur expression n est pas assez forte ou pas assez fine pour capturer les données incohérentes de manière précise. En effet, ces mesures permettent de détecter des erreurs sur les DF et non au niveau des classes de valeurs. Récemment, Bohannon et al. (2007) ont étendu les DF aux DFC pour pallier ce problème. Dans cet article nous traitons le problème de l inférence des DFC i.e. trouver une couverture de l ensemble des DFC satisfaites dans une relation. Disposer de ces techniques de découverte permet entre autres d améliorer la performance des outils de nettoyage de données basées sur les DFC. A notre connaissance deux contributions ont été faites sur la fouille de DFC (Chiang et Miller (2008); Fan et al. (2009)). Chiang et Miller (2008) présentent un outil
2 Découverte des DFC fréquentes de gestion de la qualité des données en proposant des règles et en identifiant des tuples incohérents. Ils présentent aussi des méthodes pour la découverte de DFC satisfaites, cependant des DFC redondantes sont aussi générées. Fan et al. (2009) adaptent les méthodes bien connues pour la découverte des DF (TANE Huhtala et al. (1999b), FastFD Wyss et al. (2001)) pour inférer sur les DFC. Contribution Dans cet article, nous introduisons nos travaux sur le problème de la découverte de DFC en utilisant la notion de partitions. Nous montrons que les techniques de fouilles de données proposées pour la découverte de dépendances fonctionnelles et de règles d associations peuvent être réutilisées pour la découverte de DFC constantes et fréquentes. Nous montrons comment étendre une approche basée sur les notions d ensembles libres, fermeture et quasi-fermeture pour l inférence de DF à l inférence de DFC. Nous avons implémenté cette approche et réalisé plusieurs expérimentations afin de prouver son efficacité lors du passage à l échelle. Organisation de l article Dans la section 2, les notions de base concernant les DFC sont données et nous introduisons une nouvelle notation pour les DFC. La section 3 est consacrée à la découverte de DFC en offrant un cadre théorique et applicatif. Les expérimentations de découverte de DFC fréquentes se trouvent à la section 4. La dernière section est consacrée à la conclusion de ce travail ainsi qu à ses perspectives. 2 Préliminaires Les notations utilisées sont celles empruntées à Bohannon et al. (2007). Chaque attribut A a un domaine noté DOM(A). Soit une relation r sur un schéma R avec A R, le domaine actif de A dans r est noté ADOM(A, r). Exemple 1 Nous empruntons l exemple fourni dans Bohannon et al. (2007) pour illustrer le concept de DFC. Soit cust un schéma de relation décrivant un client avec : country code r 0 CC AC PN NM STR CT ZIP t 1 : Mike Tree Ave. NYC t 2 : Rick Tree Ave. NYC t 3 : Joe Elm Str. NYC t 4 : Jim Elm Str. NYC t 5 : Ben Oak Av. PHI t 6 : Ian High St. EDI t 7 : Kim High St. PHI FIG. 1 Relation r 0 sur le schéma cust (CC), area code (AC), phone number (PN), name (NM), street (STR), city (CT) and zip code (ZIP). La figure 1 illustre une relation, r 0, sur ce schéma. Soient f 1 = CC, AC, P N ST R, CT, ZIP, f 2 = CC, AC CT, ZIP et f 3 = CC, ZIP ST R trois DF. r 0 satisfait f 1 et f 2 mais viole f 3 (e.g. tuples t 4 et t 5 ). L intuition derrière les DFC est d extraire à travers une formule de sélection (égalité) un sous ensemble de la relation sur lequel on peut définir des DF. Par exemple la DF f 3 : CC, ZIP ST R pour σ CC=44 (r 0 ) peut être exprimée à l aide de la DFC φ 0 = (CC, ZIP ST R, (44, _ _)) où sépare la partie gauche de la partie droite et _ représente n importe quelle valeur du domaine de l attribut correspondant. RNTI - X - 2
3 T. Diallo et N. Novelli D autres DFC comme φ 1 = (CC, AC, P N ST R, CT, ZIP (01, 908, _ _, NY C, _)), φ 2 = (CC, AC, P N ST R, CT, ZIP (01, 212, _ _, P HI, _)) ou φ 3 = (CC, AC CT (01, 215 P HI)) peuvent être définies sur r 0. Soit R un schéma de relation. Une DFC ρ sur R est une paire (X Y, T p ) où XY R, X Y une DF et T p un pattern tableau d attributs de R. Pour chaque A R et pour chaque pattern tuple t p T p, t p [A] est soit une constante DOM(A), soit la variable sans nom notée _ si A XY, soit la variable vide notée qui indique que l attribut correspondant ne contribue pas au pattern (i.e. A R XY ). Soit r une relation sur R, X R et T p un pattern tableau sur R. Un tuple t r matche un tuple t p T p sur X, noté t[x] t p [X], ssi A X, t[a] = t p [A], ou t p [A] = _, ou t p [A] =. Soit r une relation sur R et ρ = (X Y, T ) une DFC avec XY R : r satisfait ρ, noté r = ρ, ssi t i, t j r et t p T, si t i [X] = t j [X] t p [X] alors t i [Y ] = t j [Y ] t p [Y ]. r viole la DFC ρ = (X Y, T ), notée r = ρ, ssi il existe un tuple t r et un pattern tuple t p T tel que t[x] t p [X] et t[y ] t p [Y ] ou il existe t i, t j r et un pattern tuple t p T tel que t i [X] = t j [X] t p [X] et t i [Y ] t j [Y ]. Exemple 2 La relation r 0 (cf. figure 1) satisfait les DFC φ 0, φ 1 et φ 3 alors qu elle ne satisfait pas les deux DFC φ 2 et φ 4 suivantes : φ 2 = (CC, AC, P N ST R, CT, ZIP (01, 212, _ _, P HI, _)) car le tuple t 3 viole φ 2 : t 3 [CC, AC, P N] (01, 212, _) mais t 3 [ST R, CT, ZIP ] (_, P HI, _). φ 4 = ([CC, CT ] ZIP, (01, _ _)) car t 2 et t 3 violent φ 4 puisque t 2 [CC, CT ] = t 3 [CC, CT ] (01, _), mais t 2 [ZIP ] t 3 [ZIP ]. Une DFC (X Y, T p ) est dite à la forme normale (Fan et al. (2008)), lorsque Y = 1 et T p = 1. Par la suite nous n étudions que les DFC à la forme normale. Une DFC (X A, t p ) est dite : constante si t p [XA] n est constitué que de constantes. variable si la partie droite de son pattern tuple est une variable sans nom. 3 Découverte des DFC constantes et fréquentes Nous souhaitons découvrir les DFC constantes et fréquentes présentes dans une relation, i.e. les DFC pour lesquelles le nombre de tuples de la relation les satisfaisant est supérieur à un seuil de fréquence donné. Pour cela, nous établissons un cadre théorique offrant une caractérisation simple et solide sur laquelle s appuie une implémentation efficace utilisant la notion de partition. 3.1 Cadre théorique Nous commençons par définir les notations nécessaires pour caractériser l espace de recherche et l expression de DFC puis nous poursuivons par une caractérisation permettant la découverte de DFC dans une relation existante. RNTI - X - 3
4 Découverte des DFC fréquentes Définition 1 Soit R un schéma de relation. L espace de recherche des DFC constantes sur R, noté SP CF D (R), est défini comme suit : SP CF D (R) = {(A, a) A R, a DOM(A)} Ainsi toute DFC constante peut être représentée à l aide des éléments de cet espace. Soit ρ = (A 1... A n A, t p [A 1... A n A]) une DFC constante sur R. ρ est équivalent à X A, avec X = {(A 1, t p [A 1 ]),..., (A n, t p [A n ])} SP CF D (R) et A = (A, t p [A]) SP CF D (R). Soit X SP CF D (R), X.att représente l union de tous les attributs appartenant à X. Définition 2 Soit R un schéma de relation et r une relation sur R. L espace de recherche des DFC constantes pour r, noté ASP CF D (R, r), est défini comme suit : ASP CF D (R, r) = {(A, a) A R, a ADOM(A, r)} Les éléments de ASP CF D (R, r) sont appelés des ensembles d attributs conditionnels. Exemple 3 Soit r la relation de la figure 2. Nous notons le couple (A i, v) par A i v. ASP CF D (ABCD, r) = {A0, A2, B0, B1, B2, C0, C3, D1, D2} r A B C D t 1 : t 2 : t 3 : t 4 : t 5 : FIG. 2 Une relation r sur R = ABCD Une DFC X A sur R est dite triviale si A.att X.att. Dans notre étude nous ne considérons que les DFC non triviales. Une DFC constante X A est réduite à gauche sur r si X.att X.att, r = X A. Une DFC minimale (Fan et al. (2008)) ρ sur r est non triviale, réduite à gauche et telle que r = ρ. Une couverture canonique d un ensemble Σ r de DFC est un ensemble Σ cc de DFC minimales tel que Σ r est équivalent à Σ cc. Etant donné une relation r notre problème est d énumérer la couverture canonique des DFC satisfaites par r. La propriété suivante montre la monotonie des DFC ce qui correspond à un ordre partiel. Propriété 1 Soit r une relation sur R, X, Y ASP CF D (R, r) tel que X Y et A ASP CF D (R, r). Nous avons : r = X A r = Y A. A l aide de ces nouvelles notations, la fermeture d un ensemble d attributs conditionnels définie dans Fan et al. (2008) peut être facilement ré-écrite. Définition 3 Soit Σ une DFC constante et X SP CF D (R). La fermeture de X sur Σ, notée X Σ, est définie comme suit : X Σ = {A SP CF D (R) Σ = X A}. RNTI - X - 4
5 T. Diallo et N. Novelli L opérateur. Σ défini sur l ensemble des parties de SP CF D(R) est un opérateur de fermeture, i.e. extensible, monotone et idempotent. Intuitivement, la fréquence d une DFC dans une relation est le nombre de tuples qui satisfont le pattern tuple, i.e. la taille de la requête de sélection correspondante. Définition 4 Soit θ = (X Y ) une DFC constante sur R et r une relation sur R. La fréquence de θ dans r, notée freq(θ, r), est définie comme suit : freq(θ, r) = σ (A,v) X Y (A=v)(r) Soit ɛ un entier représentant la valeur d un seuil. Une DFC θ est dite fréquente dans r, si freq(θ, r) ɛ. Cette définition est importante pour éliminer ou réduire l impact des données impropres contenues dans une relation. En effet, seules les données suffisamment présentes sont prises en compte ce qui gomme par exemple les erreurs de saisie ce qui correspond à la même philosophie que la mesure g 3 introduite dans Kivinen et Mannila (1995). Bien évidemment, ce prédicat est monotone ce qui entraine la propriété suivante. Propriété 2 Soit r une relation sur R, X, Y ASP CF D (R, r) tels que X Y et ɛ un seuil. Nous avons : freq(y, r) ɛ freq(x, r) ɛ (ou freq(x, r) < ɛ freq(y, r) < ɛ) Nous avons besoin de définir un test afin de décider si une DFC est valide ou non dans une relation. Depuis longtemps, nous savons qu une telle propriété existe pour tester la satisfaction d une DF dans une relation. La propriété suivante est souvent utilisée : r = X Y ssi X r = XY r. Pour les DFC, une propriété similaire peut être obtenue. C est ce que nous montrons ciaprès en utilisant l opérateur de sélection de l algèbre relationnelle. Propriété 3 Soit R un symbole de relation, r une relation sur R, X, Y ASP CF D (R, r) et C X, C Y deux formules de sélection sur X et Y respectivement. r = X Y ssi σ CX (r) = σ CX C Y (r) où C X = (A,v) X (A = v) et C Y = (A,v) Y (A = v) Nous pouvons maintenant introduire les définitions qui nous permettront d établir une caractérisation solide permettant la découverte de DFC. Définition 5 Ensembles conditionnels libres Soit X ASP CF D (R, r) un ensemble d attributs conditionnels. X est un ensemble conditionnel libre dans r ssi X X tel que σ CX (r) = σ C X (r). L ensemble des ensembles conditionnels libres dans r est noté CFS r. Tout ensemble d attributs conditionnels qui n est pas inclus dans CFS r est appelé un ensemble conditionnel non libre. Propriété 4 Soit r une relation sur R, X, Y ASP CF D (R, r) tel que X Y. Nous avons : Y CFS r X CFS r (ou de façon équivalente X CFS r Y CFS r ) RNTI - X - 5
6 Découverte des DFC fréquentes A partir des propriétés et des définitions introduites dans cette section, il est évident que les algorithmes par niveau (comme Apriori) peuvent être utilisés pour découvrir les ensembles conditionnels libres (conjonction de deux prédicats monotones). A partir des ensembles conditionnels libres, nous étendons les résultats donnés dans Novelli et Cicchetti (2001a,b) (pour l inférence de DF) pour proposer une nouvelle caractérisation de la couverture canonique des DFC qui tient compte d un seuil de fréquence. Elle est basée sur les ensembles conditionnels libres, leur fermeture et leur quasi-fermeture. Définition 6 Fermeture d un ensemble d attributs conditionnels dans une relation Soit X un ensemble d attributs conditionnels, X ASP CF D (R, r). Sa fermeture dans r est définie comme suit : X Σ r = X {A A.att R X.att σ CX (r) = σ CX C A (r) }. Définition 7 Quasi-fermeture d un ensemble d attributs conditionnels dans une relation La quasi-fermeture d un ensemble d attributs conditionnels X ASP CF D (R, r), noté X Σ r, est définie par : = X (X A) Σ r X Σ r A X Grâce à la propriété de monotonie de l opérateur de fermeture, nous avons : X X Σ r X Σ r ce qui nous permet de réécrire la définition 6 de la façon suivante. Définition 8 Fermeture d un ensemble d attributs conditionnels dans une relation Soit X un ensemble d attributs conditionnels, X ASP CF D (R, r). Sa fermeture dans r est redéfinie comme suit : X Σ r = X Σ r {A A.att R X.att σ CX (r) = σ CX C A (r) }. La notion de quasi-fermeture est utilisée pour accumuler les fermetures des sous ensembles propres de l attribut conditionnel considéré. Ceci nous permet dans le théorème suivant de garantir la minimalité des DFC extraites. Le théorème suivant prouve que l ensemble de DFC constantes caractérisé à l aide des concepts introduits est la couverture canonique des DFC constantes pour la relation r. Théorème 1 Σ cc (r, ɛ) = {X A X CFS r, freq(x, r) ɛ et A X Σ r X Σ r } La fréquence freq(x, r) étant utilisée pour filtrer les DFC fréquentes, elle n a pas à intervenir dans la démonstration. Preuve 1 Supposons tout d abord que la DFC X A CC(r, ɛ) (DFC minimale et non triviale). Nous avons donc X X, X r X r donc X CFS r (conformément à la définition 5). De plus, A X Σ r puisque la DFC est valide. Elle est minimale donc A X Σ r (cf. Définition 8). Donc si la DFC X A CC(r, ɛ) alors X CFS r et A X Σ r X Σ r. Supposons maintenant que X CFS r et A X Σ r X Σ r. Puisque A X Σ r, A est déterminée par X, donc r = X A. Elle est minimale puisque X CFS r donc X X, X r X r et non triviale puisque A X Σ r. Donc X A CC(r, ɛ). Exemple 4 Pour illustrer cette section (cf. figure 3), nous utilisons la relation déjà décrite (cf. figure 2). La première colonne du tableau suivant représente le candidat X qui peut être un ensemble conditionnel libre ou non libre. Les candidats précédés d un * sont des ensembles conditionnels non libres. La deuxième colonne correspond à la cardinalité de X et pour finir, les deux dernières colonnes représentent la quasi-fermeture conditionnelle (X Σ) et la fermeture conditionnelle (X Σ) de X. A droite, les DFC découvertes sont affichées. RNTI - X - 6
7 T. Diallo et N. Novelli X X X Σ A0 3 A0 A0 X Σ A2 2 A2 A2 C0 D1 A CD (2 0, 1) B1 3 B1 B1 B0 1 B0 A0 B0 C0 D1 B ACD (0 0, 0, 1) B2 1 B2 A2 B2 C0 D1 B ACD (2 2, 0, 1) C0 4 C0 C0 C3 1 C3 A0 B1 C3 D2 C ABD (3 0, 1, 2) D2 2 D2 A0 B1 D2 D AB (2 0, 1) D1 3 D1 C0 D1 D C (1 0) A0 B1 2 A0 B1 A0 B1 D2 AB D (0, 1 2) *A0 B0 1 A0 B0 C0 D1 A0 B0 C0 D1 A2 B1 1 A2 B1 C0 D1 A2 B1 C0 D1 *A2 B2 1 A2 B2 C0 D1 A2 B2 C0 D1 A0 C0 2 A0 C0 A0 C0 *A0 C3 1 A0 B1 C3 D2 AO B1 C3 D2 *A2 C0 2 A2 C0 D1 A2 C0 D1 *A0 D2 2 A0 B1 D2 A0 B1 D2 A0 D1 1 A0 C0 D1 A0 B0 C0 D1 AD B (0, 1 0) A2 D1 2 A2 C0 D1 A2 C0 D FIG. 3 Illustration de la caractérisation proposée 3.2 Implémentation de l approche Le cadre théorique proposé est très bien adapté à une approche par niveau pour l implémentation de la découverte de DFC. Notre algorithme, appelé CFUN, est donc basé sur les concepts d Apriori afin de découvrir l ensemble des ensembles conditionnels libres. Une fois ces derniers découverts pour chaque niveau ainsi que les valeurs correspondantes de fréquence (comptage), quasi-fermeture et fermeture, la découverte des DFC est triviale suivant le théorème 1. Cette philosophie est la même que celle utilisée pour l extraction de DF de l approche FUN de Novelli et Cicchetti (2001a,b). Algorithme CFUN L algorithme général, donné ci-après, initialise les niveaux L 0 (ligne 1) et L 1 (ligne 2) avant de commencer à proprement dit la boucle de calcul niveau par niveau (lignes 3-8). Cette dernière calcule tout d abord la fermeture (ligne 4) de tous les attributs conditionnels du niveau L k 1 à l aide du niveau L k (comparaison de fréquences) puis calcule les quasi-fermetures (ligne 5) du niveau L k à partir des fermetures obtenues au niveau précédant L k 1 (Définition 6). Une fois les fermetures et quasi-fermetures du niveau L k 1 calculées il est trivial d afficher les DFC fréquentes obtenues à ce niveau (Théorème 1). Une phase d élagage élimine les éléments du niveau courant qui n appartiennent pas à CFS r (ligne 7). Ceci permet lors de la génération des candidats du niveau suivant (ligne 8) que seuls les sur-ensembles des ensembles conditionnels libres soient considérés. L algorithme se termine RNTI - X - 7
8 Découverte des DFC fréquentes en affichant les DFC découvertes au dernier niveau (ligne 9). Chaque niveau contient des quadruplets < X, X, X Σ, X Σ > comme le montre la figure 3. Algorithm CFUN 1 L 0 := <, 1,, > 2 L 1 := { < A, A, A, A > A ASP CF D (R, r) A.att = 1 } 3 for ( k := 1 ; L k ; k := k + 1 ) do 4 ComputeClosure( L k 1, L k ) 5 ComputeQuasiClosure( L k, L k 1 ) 6 DisplayCFD( L k 1 ) 7 PruneNonFreeSets( L k, L k 1 ) 8 L k+1 := GenerateCandidate( L k ) 9 DisplayCFD( L k 1 ) end CFUN La phase de génération de candidats requiert une attention toute particulière. En effet, il ne faut pas générer de combinaison d attributs conditionnels qui n existe pas dans la relation considérée (par exemple, la combinaison AA). Pour éviter ces erreurs de génération de candidats, nous avons utilisé la notion de partition. Optimisation et ressource mémoire nécessaire Afin de pallier le problème de génération et d optimiser les calculs, nous avons opté pour une structure interne de représentation de l information basée sur la notion de partitions introduite par Cosmadakis et al. (1986); Spyratos (1987). L opération de partitionnement d une relation r selon un ensemble d attributs X consiste à regrouper en classes d équivalence, les tuples ayant même valeur pour X. L ensemble des classes d équivalence constitue une partition de r selon X. Les partitions peuvent être représentées de deux manières efficaces d après Novelli et Maabout (2003) : soit on utilise un vecteur de numéros de classe d équivalence dont l indexation se fait par le numéro du tuple ; soit on utilise un vecteur d identifiants de tuples rangés dans l ordre des classes d équivalence ce qui est très bien adapté aux calculs de DF (cf. Huhtala et al. (1998, 1999a); Lopes et al. (2000); Novelli et Cicchetti (2001a,b)) et donc pour les DFC. De plus, le produit de partitions proposé dans Novelli et Maabout (2003) nous permet aussi de calculer très rapidement les fréquences de chaque attributs conditionnels en ne générant pas les combinaisons inexistantes dans la relation. Exemple 5 Pour illustrer l utilisation des partitions, nous reprenons la relation de la figure 2. Le seuil est fixé à 1. Les partitions suivant les attributs A et C sont π A = {(1, 2, 3), (4, 5)} et π C = {(1, 3, 4, 5), (2)}. Les valeurs correspondantes aux classes d équivalence sont 0, 2 pour A et 0, 3 pour C. Le produit de π A et π C est π AC = {(1, 3), (2), (4, 5)}. Les valeurs correspondantes sont (0, 0), (0, 3) et (2, 0). Ceci nous fournit directement les attributs conditionnels avec leur fréquence : freq(< A0 >) = 3, freq(< A2 >) = 2, freq(< C0 >) = 4, freq(< C3 >) = 1, freq(< A0, C0 >) = 2, freq(< A0, C3 >) = 1, freq(< A2, C0 >) = 2. D où la DFC A C(2 0) est valide puisque freq(< A2 >) = freq(< A2, C0) >) = 2. De plus, aucune combinaison impossible n a été générée. Pour une relation à n tuples et k attributs, le nombre correspondant de combinaisons d attributs est de 2 k (ensemble des parties). Dans le pire des cas, chaque combinaison d attributs engendre n combinaisons d attributs conditionnels (toutes les valeurs de cette combinaison d attributs sont distinctes). Cela implique que dans le pire des cas le nombre total d attributs conditionnels est de n 2 k. Chaque attribut conditionnel est représenté par un quadruplet d entier (4 RNTI - X - 8
9 T. Diallo et N. Novelli 4 octets) ce qui signifie que la quantité maximale de mémoire pour conserver la totalité des niveaux de notre approche est de 16n 2 k octets. L algorithme proposé étant par niveau, seuls deux niveaux sont obligatoirement conservés en mémoire. De fait, les besoins mémoire sont très facilement réduits à 16n 2 ( k k/2) octets soit à la partie la plus large du treillis de combinaisons d attributs (les deux niveaux centraux). 4 Expérimentations Afin d évaluer les performances, l approche décrite dans la section 3.1 a été implémentée en C++. L exécutable peut être obtenu à l aide des compilateurs MS Visual C ou GNU g++. Différentes expérimentations ont été réalisées sur un ordinateur équipé d un processeur Pentium Centrino 2 GHz avec 2 Go de RAM avec un système Linux. Au moment de la rédaction de l article, les auteurs des approches existantes (Chiang et Miller (2008); Fan et al. (2009)) n ont pas encore pu nous faire parvenir un exécutable ou le code source de leurs approches. De fait, nous n avons pas pu comparer notre proposition avec les leurs. Toutefois, nous avons utilisé les mêmes jeux de données réelles ce qui nous permet d effectuer une comparaison approximative grossière des résultats. Pour les expérimentations sur des données réelles, nous avons utilisé Winsconsin breast cancer (WBC) et Chess datasets (comme les approches citées) issues du UCI machine learning repository 1. Le tableau suivant résume les caractéristiques des jeux de données réelles. Datasets #Attributs #Tuples Taille (Ko) Wirsconsin Breast Cancer Chess La figure 4 montre le comportement de notre approche sur les données réelles décrites précédemment lorsque le seuil de fréquence des DFC varie. La courbe de gauche représente les temps d exécution en seconde alors que celle de droite illustre les consommations mémoire en Mo. Comme attendu, quand le support minimal augmente, le temps d exécution et la consommation mémoire diminuent. Nous avons aussi généré des données synthétiques avec notre propre générateur de données : c est un générateur uniforme de données pour chaque colonne indépendamment des autres colonnes de la relation. Les jeux de données synthétiques sont automatiquement générés à l aide des paramètres suivants : r représente la cardinalité de la relation, R correspond au degré de la relation et c fixe le taux de corrélation entre les valeurs d un attribut. Plus ce taux est grand, plus le nombre de DFC satisfaites dans la relation augmente. La figure 5 illustre le comportement lorsque le nombre de tuples augmente de à pour différents jeux de données synthétiques. Le taux de corrélation de données est fixé à 30% pour montrer le passage à l échelle de notre proposition en fonction du nombre de tuples. En effet, cela permet de fixer le nombre de DFC satisfaites indépendamment du nombre de tuples. Le support est fixé à 1 afin qu aucune technique d élagage ne soit appliquée ce qui correspond au pire cas d extraction de DFC. Les besoins mémoire et le temps d exécution sont linéaires au nombre de tuples de la relation considérée. La figure 6 illustre le comportement de notre approche lorsque le taux de corrélation de données varie de 30% à 70% sur différents jeux de données synthétiques avec un nombre fixe 1 http ://archive.ics.uci.edu/ml RNTI - X - 9
10 Découverte des DFC fréquentes Execution Time (s) WBC Chess Minimal support of frequent CFD Memory usage (Mo) WBC Chess Minimal support of frequent CFD FIG. 4 Temps d exécution et consommation mémoire pour les jeux de données réelles Wisconcin Breast Cancer et chess Execution time (s) Number of tuples (x1000) Memory usage (Mo) Number of tuples (x1000) FIG. 5 Temps d exécution et consommation mémoire pour différentes cardinalités Execution Time (s) Data correlation rates Memory usage Data correlation rates FIG. 6 Temps d exécution et besoin mémoire pour différents taux de corrélation de tuples (5 000) et d attributs (7). L idée est d étudier le comportement de notre algorithme lorsque la taille de l espace de recherche des attributs conditionnels croît. Le temps d exécution et les besoins mémoire augmentent légèrement en fonction du taux de corrélation ce qui est un résultat surprenant en raison de la complexité exponentielle inhérente. La principale raison est due à l efficacité de notre implémentation basée sur les partitions RNTI - X - 10
11 T. Diallo et N. Novelli de valeurs des attributs et leur produit (Novelli et Maabout (2003)). En outre, il est intéressant de noter que notre mise en œuvre ne consomme que peu de mémoire. Par exemple, pour un ensemble de données synthétiques avec de tuples et 9 attributs, le temps d exécution approche 31 secondes en n utilisant que 1 Go de mémoire principale. 5 Conclusion Dans cet article, nous introduisons une nouvelle notation pour les dépendances fonctionnelles conditionnelles rendant leur découverte à partir d une relation existante plus facile. Nous avons proposé l adaptation d une approche bien connue dans le contexte de l inférence de dépendances fonctionnelles à la découverte de DFC constantes fréquentes. Elle est basée sur l approche FUN (Novelli et Cicchetti (2001a,b)) et peut être utilisée pour l extraction de DFC constantes fréquentes. Cette approche a été implémentée et testée sur différents jeux de données synthétiques et réelles. Par souci de clarté, nous mettons l accent dans cet article sur la découverte de DFC constantes. Dans l avenir, nous envisageons de traiter le problème de la découverte de DFC variables. Deux approches sont en effet possibles : la première consiste à réduire l ensemble des DFC constantes (si toutes les valeurs de ADOM(X, r) sont présentes alors nous pouvons les substituer par _ ) pour obtenir un ensemble équivalent restreint de DFC variables. La seconde consiste à enrichir l approche actuelle pour obtenir des algorithmes dédiés. Une campagne approfondie d expérimentations reste à faire pour évaluer en profondeur nos résultats actuels. Il est à noter que l extraction de DFC fréquentes partage certaines caractéristiques avec le problème d extraction de requêtes conjonctives fréquentes de projection-sélection (voir par exemple Jen et al. (2008)). Nous avons l intention d approfondir ces deux domaines afin d en extraire de nouvelles techniques bénéfiques à leurs problèmes. Références Bohannon, P., W. Fan, F. Geerts, X. Jia, et A. Kementsietsidis (2007). Conditional functional dependencies for data cleaning. In Proceedings of ICDE 07, April 15-20, Istanbul, Turkey, pp Chiang, F. et R. J. Miller (2008). Discovering data quality rules. VLDB 1(1), Cosmadakis, S., P. Kanellakis, et N. Spyratos (1986). Partition Semantics for Relations. Journal of Computer and System Sciences 33(2), Fan, W., F. Geerts, X. Jia, et A. Kementsietsidis (2008). Conditional functional dependencies for capturing data inconsistencies. ACM Trans. Database Syst. 33(2). Fan, W., F. Geerts, L. V. S. Lakshmanan, et M. Xiong (2009). Discovering conditional functional dependencies. In Proceedings of the 25th International Conference on Data Engineering, ICDE 2009, March April , Shanghai, China, pp RNTI - X - 11
12 Découverte des DFC fréquentes Huhtala, Y., J. Kärkkäinen, P. Porkka, et H. Toivonen (1998). Efficient Discovery of Functional and Approximate Dependencies Using Partitions. In ICDE 98, Orlando, Florida, USA, pp Huhtala, Y., J. Karkkainen, P. Porkka, et H. Toivonen (1999a). TANE : An Efficient Algorithm for Discovering Functional and Approximate Dependencies. The Computer Journal 42(2), Huhtala, Y., J. Kärkkäinen, P. Porkka, et H. Toivonen (1999b). Tane : An efficient algorithm for discovering functional and approximate dependencies. The Computer Journal 42(3), Jen, T.-Y., D. Laurent, et N. Spyratos (2008). Mining all frequent projection-selection queries from a relational table. In EDBT 2008, 11th International Conference on Extending Database Technology, Nantes, France, March 25-29, 2008, Proceedings, pp Kivinen, J. et H. Mannila (1995). Approximate inference of functional dependencies from relations. Theor. Comput. Sci. 149(1), Lopes, S., J. Petit, et L. Lakhal (2000). Efficient Discovery of Functional Dependencies and Armstrong Relations. In Proc. EDBT 00, pp Novelli, N. et R. Cicchetti (2001a). Fun : An efficient algorithm for mining functional and embeddeddependencies. In Proceedings of the 8th International Conference on Database- Theory (ICDT 01), Volume 1973 of Lecture Notes in Computer Science, pp Novelli, N. et R. Cicchetti (2001b). Functional and embedded dependency inference : a data mining point of view. Information Systems (IS) 26(7), Novelli, N. et S. Maabout (2003). Algorithme efficace de calcul du produit de partitions et ses applications. In 19ème conférence Bases de Données Avancées (BDA 03), pp Spyratos, N. (1987). The partition model : A deductive database model. ACM TODS 12(1), Wyss, C., C. Giannella, et E. Robertson (2001). Fastfds : A heuristic-driven, depth-first algorithm for mining functional dependencies from relation instances extended abstract. Data Warehousing and Knowledge Discovery, Summary Conditional Functional Dependencies (CFDs) have been recently introduced in the context of data cleaning. They can be seen as an unification of Functional Dependencies (FD) and Association Rules (AR) since they allow to mix attributes and attribute/values in dependencies. In this paper, we introduce our ongoing work on CFD inference which can be seen as a clarification of some simple and basic notions underlying CFDs. Not surprisingly, we point out how data mining techniques developed for functional dependencies and association rules can be reused for constant CFD mining. We focus on how to extent a know technique for discovering exacts and approximates FDs to discovering CFDs. We have implemented the technique on which experiments have been carried out showing both the feasibility and the scalability of our proposition. Keywords: Data dependencies, Data mining, Databases theory. RNTI - X - 12
Formula Negator, Outil de négation de formule.
Formula Negator, Outil de négation de formule. Aymerick Savary 1,2, Mathieu Lassale 1,2, Jean-Louis Lanet 1 et Marc Frappier 2 1 Université de Limoges 2 Université de Sherbrooke Résumé. Cet article présente
Limitations of the Playstation 3 for High Performance Cluster Computing
Introduction Plan Limitations of the Playstation 3 for High Performance Cluster Computing July 2007 Introduction Plan Introduction Intérêts de la PS3 : rapide et puissante bon marché L utiliser pour faire
Application de K-means à la définition du nombre de VM optimal dans un cloud
Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février
Principe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, [email protected] 2 Université
Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication
Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication R. Carlos Nana Mbinkeu 1,3, C. Tangha 1, A. Chomnoue 1, A. Kuete
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux
Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,
Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très
Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining
Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Mostafa HANOUNE*, Fouzia BENABBOU* *Université Hassan II- Mohammedia, Faculté des sciences
Etude d Algorithmes Parallèles de Data Mining
REPUBLIQUE TUNISIENNE MINISTERE DE L ENSEIGNEMENT SUPERIEUR, DE LA TECHNOLOGIE ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE DE TUNIS ELMANAR FACULTE DES SCIENCES DE TUNIS DEPARTEMENT DES SCIENCES DE L INFORMATIQUE
Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test
Grandes lignes Analyseur Statique de logiciels Temps RÉel Embarqués École Polytechnique École Normale Supérieure Mercredi 18 juillet 2005 1 Présentation d 2 Cadre théorique de l interprétation abstraite
Cours de Master Recherche
Cours de Master Recherche Spécialité CODE : Résolution de problèmes combinatoires Christine Solnon LIRIS, UMR 5205 CNRS / Université Lyon 1 2007 Rappel du plan du cours 16 heures de cours 1 - Introduction
T H È S E. Dépendances fonctionnelles : extraction et exploitation
N o d'ordre : 4883 UNIVERSITE DE BORDEAUX I ECOLE DOCTORALE Mathématiques et Informatique SCIENCES ET TECHNOLOGIES DE L'INFORMATION ET DE LA COMMUNICATION T H È S E pour obtenir le titre de Docteur en
LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.
Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS [email protected] 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de
Corps des nombres complexes, J Paul Tsasa
Corps des nombres complexes, J Paul Tsasa One Pager Février 2013 Vol. 5 Num. 011 Copyright Laréq 2013 http://www.lareq.com Corps des Nombres Complexes Définitions, Règles de Calcul et Théorèmes «Les idiots
ICA Congress, Brisbane 2012 Thème général : Les temps qui changent. La confiance et les archives*
ICA Congress, Brisbane 2012 Thème général : Les temps qui changent. La confiance et les archives* Titre : Un résumé de la pratique archivistique internationale adaptée au niveau local : manuel pratique
Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)
MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion [email protected],
TP Bases de données réparties
page 1 TP Bases de données réparties requêtes réparties Version corrigée Auteur : Hubert Naacke, révision 5 mars 2003 Mots-clés: bases de données réparties, fragmentation, schéma de placement, lien, jointure
2.4 Représentation graphique, tableau de Karnaugh
2 Fonctions binaires 45 2.4 Représentation graphique, tableau de Karnaugh On peut définir complètement une fonction binaire en dressant son tableau de Karnaugh, table de vérité à 2 n cases pour n variables
Évaluation d une architecture de stockage RDF distribuée
Évaluation d une architecture de stockage RDF distribuée Maeva Antoine 1, Françoise Baude 1, Fabrice Huet 1 1 INRIA MÉDITERRANÉE (ÉQUIPE OASIS), UNIVERSITÉ NICE SOPHIA-ANTIPOLIS, I3S CNRS pré[email protected]
TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes
TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,
Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Limites finies en un point
8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,
Laboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
3. Conditionnement P (B)
Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte
DOCM 2013 http://docm.math.ca/ Solutions officielles. 1 2 10 + 1 2 9 + 1 2 8 = n 2 10.
A1 Trouvez l entier positif n qui satisfait l équation suivante: Solution 1 2 10 + 1 2 9 + 1 2 8 = n 2 10. En additionnant les termes du côté gauche de l équation en les mettant sur le même dénominateur
Bases de Données. Plan
Université Mohammed V- Agdal Ecole Mohammadia d'ingénieurs Rabat Bases de Données Mr N.EL FADDOULI 2014-2015 Plan Généralités: Définition de Bases de Données Le modèle relationnel Algèbre relationnelle
Differential Synchronization
Differential Synchronization Neil Fraser Google 2009 BENA Pierrick CLEMENT Lucien DIARRA Thiemoko 2 Plan Introduction Stratégies de synchronisation Synchronisation différentielle Vue d ensemble Dual Shadow
AGROBASE : un système de gestion de données expérimentales
AGROBASE : un système de gestion de données expérimentales Daniel Wallach, Jean-Pierre RELLIER To cite this version: Daniel Wallach, Jean-Pierre RELLIER. AGROBASE : un système de gestion de données expérimentales.
Cours d initiation à la programmation en C++ Johann Cuenin
Cours d initiation à la programmation en C++ Johann Cuenin 11 octobre 2014 2 Table des matières 1 Introduction 5 2 Bases de la programmation en C++ 7 3 Les types composés 9 3.1 Les tableaux.............................
Le Langage SQL version Oracle
Université de Manouba École Supérieure d Économie Numérique Département des Technologies des Systèmes d Information Le Langage SQL version Oracle Document version 1.1 Mohamed Anis BACH TOBJI [email protected]
Data Mining. Master 1 Informatique - Mathématiques UAG
Data Mining Master 1 Informatique - Mathématiques UAG 1.1 - Introduction Data Mining? On parle de Fouille de données Data Mining Extraction de connaissances à partir de données Knowledge Discovery in Data
Une méthode d apprentissage pour la composition de services web
Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia [email protected],
LES DECIMALES DE π BERNARD EGGER
LES DECIMALES DE π BERNARD EGGER La génération de suites de nombres pseudo aléatoires est un enjeu essentiel pour la simulation. Si comme le dit B Ycard dans le cours écrit pour le logiciel SEL, «Paradoxalement,
Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation
Complex Event Processing Traitement de flux de données en temps réel Romain Colle R&D Project Manager Quartet FS Plan Génération et exploitation de données CEP et applications Flux de données et notifications
Évaluation et optimisation de requêtes
Évaluation et optimisation de requêtes Serge Abiteboul à partir de tranparents de Philippe Rigaux, Dauphine INRIA Saclay April 3, 2008 Serge (INRIA Saclay) Évaluation et optimisation de requêtes April
TP 2 Réseaux. Adresses IP, routage et sous-réseaux
TP 2 Réseaux Adresses IP, routage et sous-réseaux C. Pain-Barre INFO - IUT Aix-en-Provence version du 24/2/2 Adressage IP. Limites du nombre d adresses IP.. Adresses de réseaux valides Les adresses IP
COURS de BASES de DONNEES
COURS de BASES de DONNEES Céline Robardet INSA-Lyon Point de départ Une base de données est une collection de données ayant une origine commune Un Système de Gestion de Base de Données (SGBD) est un logiciel
Sécuristation du Cloud
Schémas de recherche sur données chiffrées avancés Laboratoire de Cryptologie Thales Communications & Security 9 Avril 215 9/4/215 1 / 75 Contexte Introduction Contexte Objectif Applications Aujourd hui
FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES
1 FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES «Dans le concret, projets de transformation vers le BigData» V1-10/03/15 ABED AJRAOU CONNAISSEZ-VOUS PAGESJAUNES? CONNAISSEZ-VOUS PAGESJAUNES? LES MEGADONNEES RÉPONDENT
Cours 02 : Problème général de la programmation linéaire
Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la Programmation Linéaire. 5 . Introduction Un programme linéaire s'écrit sous la forme suivante. MinZ(ou maxw) =
Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction
PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS Depuis SAS 9.2 TS2M3, SAS propose un nouveau langage de programmation permettant de créer et gérer des tables SAS : le DS2 («Data Step 2»). Ces nouveautés
Utilisation des tableaux sémantiques dans les logiques de description
Utilisation des tableaux sémantiques dans les logiques de description IFT6281 Web Sémantique Jacques Bergeron Département d informatique et de recherche opérationnelle Université de Montréal [email protected]
PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier.
PRÉSENTATION PRODUIT Plus qu un logiciel, la méthode plus efficace de réconcilier. Automatiser les réconciliations permet d optimiser l utilisation des ressources et de générer plus de rentabilité dans
Modélisation d objets mobiles dans un entrepôt de données
Tao Wan, Karine Zeitouni Laboratoire PRISM, Université de Versailles 45, avenue des Etats-Unis, 78035 Versailles Cedex, France [email protected], [email protected] http://www.prism.uvsq.fr/users/karima/
Résolution de systèmes linéaires par des méthodes directes
Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.
Tsoft et Groupe Eyrolles, 2005, ISBN : 2-212-11623-3
Tsoft et Groupe Eyrolles, 2005, ISBN : 2-212-11623-3 Configuration requise ForestPrep DomainPrep Installation interactive 5 Installation sans surveillance Module 5 : Installation d Exchange Server 2003
Programmation Par Contraintes
Programmation Par Contraintes Cours 2 - Arc-Consistance et autres amusettes David Savourey CNRS, École Polytechnique Séance 2 inspiré des cours de Philippe Baptiste, Ruslan Sadykov et de la thèse d Hadrien
Chapitre 7. Récurrences
Chapitre 7 Récurrences 333 Plan 1. Introduction 2. Applications 3. Classification des récurrences 4. Résolution de récurrences 5. Résumé et comparaisons Lectures conseillées : I MCS, chapitre 20. I Rosen,
Exercices Corrigés Premières notions sur les espaces vectoriels
Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3
Exemple PLS avec SAS
Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that
INF 232: Langages et Automates. Travaux Dirigés. Université Joseph Fourier, Université Grenoble 1 Licence Sciences et Technologies
INF 232: Langages et Automates Travaux Dirigés Université Joseph Fourier, Université Grenoble 1 Licence Sciences et Technologies Année Académique 2013-2014 Année Académique 2013-2014 UNIVERSITÉ JOSEPH
Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
1 Modélisation d une base de données pour une société de bourse
IN306 : Corrigé SID Christophe Garion 18 octobre 2010 Ce document est un corrigé succinct de l examen du module IN306. 1 Modélisation d une base de données pour une société de bourse Une
Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA
RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax [email protected],
Master IMA - UMPC Paris 6 RDMM - Année 2009-2010 Fiche de TP
Master IMA - UMPC Paris 6 RDMM - Année 2009-200 Fiche de TP Préliminaires. Récupérez l archive du logiciel de TP à partir du lien suivant : http://www.ensta.fr/~manzaner/cours/ima/tp2009.tar 2. Développez
Quatrième partie IV. Test. Test 15 février 2008 1 / 71
Quatrième partie IV Test Test 15 février 2008 1 / 71 Outline Introduction 1 Introduction 2 Analyse statique 3 Test dynamique Test fonctionnel et structurel Test structurel Test fonctionnel 4 Conclusion
Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes
303 Schedae, 2007 Prépublication n 46 Fascicule n 2 Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes Samya Sagar, Mohamed Ben Ahmed Laboratoire
DE L ALGORITHME AU PROGRAMME INTRO AU LANGAGE C 51
DE L ALGORITHME AU PROGRAMME INTRO AU LANGAGE C 51 PLAN DU COURS Introduction au langage C Notions de compilation Variables, types, constantes, tableaux, opérateurs Entrées sorties de base Structures de
Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007
Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................
1 Recherche en table par balayage
1 Recherche en table par balayage 1.1 Problème de la recherche en table Une table désigne une liste ou un tableau d éléments. Le problème de la recherche en table est celui de la recherche d un élément
Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein
Analyses croisées de sites Web pour détecter les sites de contrefaçon Prof. Dr. Olivier Biberstein Division of Computer Science 14 Novembre 2013 Plan 1. Présentation générale 2. Projet 3. Travaux futurs
Alimenter un entrepôt de données par des données issues de services web. Une approche médiation pour le prototype DaWeS
Alimenter un entrepôt de données par des données issues de services web. Une approche médiation pour le prototype DaWeS John Samuel LIMOS (Laboratoire d Informatique, de Modélisation et d Optimisation
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Initiation à la Programmation en Logique avec SISCtus Prolog
Initiation à la Programmation en Logique avec SISCtus Prolog Identificateurs Ils sont représentés par une suite de caractères alphanumériques commençant par une lettre minuscule (les lettres accentuées
Big Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer
Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy
Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe
Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe des n n groupes quantiques compacts qui ont la théorie
BIG Data et R: opportunités et perspectives
BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, [email protected] 2 Ecole des Sciences Géomatiques, IAV Rabat,
Le produit semi-direct
Le produit semi-direct Préparation à l agrégation de mathématiques Université de Nice - Sophia Antipolis Antoine Ducros Octobre 2007 Ce texte est consacré, comme son titre l indique, au produit semi-direct.
Chapitre VI- La validation de la composition.
Chapitre VI- La validation de la composition. Objectifs du chapitre : Expliquer les conséquences de l utilisation de règles de typage souples dans SEP. Présenter le mécanisme de validation des connexions
République Algérienne Démocratique et Populaire
République Algérienne Démocratique et Populaire وزارة التعليم العالي والبحث العلمي Ministère de l Enseignement Supérieur et de la Recherche Scientifique UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE d ORAN
Modélisation géostatistique des débits le long des cours d eau.
Modélisation géostatistique des débits le long des cours d eau. C. Bernard-Michel (actuellement à ) & C. de Fouquet MISTIS, INRIA Rhône-Alpes. 655 avenue de l Europe, 38334 SAINT ISMIER Cedex. Ecole des
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences
Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires
Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires Julien Jorge [email protected] Laboratoire d Informatique de Nantes Atlantique,
Technologies quantiques & information quantique
Technologies quantiques & information quantique Edouard Brainis (Dr.) Service OPERA, Faculté des sciences appliquées, Université libre de Bruxelles Email: [email protected] Séminaire V : Ordinateurs quantiques
Hervé Couturier EVP, SAP Technology Development
Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud
Plan. Ce qu est le datawarehouse? Un modèle multidimensionnel. Architecture d un datawarehouse. Implémentation d un datawarehouse
Datawarehouse 1 Plan Ce qu est le datawarehouse? Un modèle multidimensionnel Architecture d un datawarehouse Implémentation d un datawarehouse Autres développements de la technologie data cube 2 Ce qu
Plan du cours : Zippers. Des fonctions sur les listes avec position. Des fonctions sur les listes avec position
Plan du cours : Le problème : naviguer efficacement une structure de données Ce qui ne marche pas Ce qui marche : les de Huet Exemples Comment dériver des pour tout type de données Pour en savoir plus
Créer le schéma relationnel d une base de données ACCESS
Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...
NON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Cours d Analyse. Fonctions de plusieurs variables
Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........
Utilisation d outils de Visual Data Mining pour l exploration d un ensemble de règles d association
Utilisation d outils de Visual Data Mining pour l exploration d un ensemble de règles d association Gwenael Bothorel, Mathieu Serrurier, Christophe Hurter To cite this version: Gwenael Bothorel, Mathieu
Le nouveau visage de la Dataviz dans MicroStrategy 10
Le nouveau visage de la Dataviz dans MicroStrategy 10 Pour la première fois, MicroStrategy 10 offre une plateforme analytique qui combine une expérience utilisateur facile et agréable, et des capacités
Big Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Métriques de performance pour les algorithmes et programmes parallèles
Métriques de performance pour les algorithmes et programmes parallèles 11 18 nov. 2002 Cette section est basée tout d abord sur la référence suivante (manuel suggéré mais non obligatoire) : R. Miller and
Programmation linéaire
Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire
Introduction aux SGBDR
1 Introduction aux SGBDR Pour optimiser une base Oracle, il est important d avoir une idée de la manière dont elle fonctionne. La connaissance des éléments sous-jacents à son fonctionnement permet de mieux
Évaluation et implémentation des langages
Évaluation et implémentation des langages Les langages de programmation et le processus de programmation Critères de conception et d évaluation des langages de programmation Les fondations de l implémentation
Chapitre 5 : Flot maximal dans un graphe
Graphes et RO TELECOM Nancy A Chapitre 5 : Flot maximal dans un graphe J.-F. Scheid 1 Plan du chapitre I. Définitions 1 Graphe Graphe valué 3 Représentation d un graphe (matrice d incidence, matrice d
Suites numériques 3. 1 Convergence et limite d une suite
Suites numériques 3 1 Convergence et limite d une suite Nous savons que les termes de certaines suites s approchent de plus en plus d une certaine valeur quand n augmente : par exemple, les nombres u n
Business Intelligence
avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................
SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)
Avant-propos 1. À qui s'adresse ce livre? 15 2. Pré-requis 15 3. Objectifs du livre 16 4. Notations 17 Introduction à la Business Intelligence 1. Du transactionnel au décisionnel 19 2. Business Intelligence
INTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1
33 Math. Inf. Sci. hum., (33 e année, n 130, 1995, pp.33-42) UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES Éric TÉROUANNE 1 RÉSUMÉ Le stéréogramme de liaison est
Algèbre binaire et Circuits logiques (2007-2008)
Université Mohammed V Faculté des Sciences Département de Mathématiques et Informatique Filière : SMI Algèbre binaire et Circuits logiques (27-28) Prof. Abdelhakim El Imrani Plan. Algèbre de Boole 2. Circuits
Travaux pratiques 1.3.2 Détermination de la capacité de stockage des données
Travaux pratiques 1.3.2 Détermination de la capacité de stockage des données Objectifs Déterminer la quantité de mémoire RAM (en Mo) installée sur un ordinateur Déterminer la taille de l unité de disque
Bases de données Cours 5 : Base de données déductives
Cours 5 : ESIL Université de la méditerranée [email protected] http://odile.papini.perso.esil.univmed.fr/sources/bd.html Plan du cours 1 Introduction 2 approche sémantique approche axiomatique
