Une approche centroïde pour la classification de séquences dans les data streams

Dimension: px
Commencer à balayer dès la page:

Download "Une approche centroïde pour la classification de séquences dans les data streams"

Transcription

1 Une approche centroïde pour la classification de séquences dans les data streams Alice Marascu, Florent Masseglia INRIA Sophia Antipolis, 2004 route des Lucioles - BP Sophia Antipolis, France Projet AxIS {Alice.Marascu,Florent.Masseglia}@sophia.inria.fr Catégorie : chercheur RÉSUMÉ. Les flots de données séquentielles (data streams) se trouvent impliqués dans des domaines de plus en plus nombreux. Dans un processus de fouille appliqué sur un data stream, l utilisation de la mémoire est limitée, de nouveaux éléments sont générés en permanence et doivent être traités le plus rapidement possible, aucun opérateur bloquant ne peut être appliqué sur les données et celles-ci ne peuvent être observées qu une seule fois. A l heure actuelle, il existe très peu de méthode de classification non supervisée des séquences dans un data stream. Notre objectif, dans cet article, est de montrer que cette classification est possible grâce à une approche centroïde, qui permettra de maintenir un représentant de chaque classe. Par comparaison avec un clustering hiérarchique classique, nos expérimentations montrent que notre approche permet d obtenir des classes de grande qualité avec des temps de réponse très faibles. ABSTRACT. In recent years, emerging applications introduced new constraints for data mining methods. These constraints are typical of a new kind of data: the data streams. In a data stream processing, memory usage is restricted, new elements are generated continuously and have to be considered as fast as possible, no blocking operator can be performed and the data can be examined only once. At this time only a few methods has been proposed for mining sequential patterns in data streams. We argue that the main reason is the combinatory phenomenon related to sequential pattern mining. In this paper, we propose an algorithm based on sequences alignment for mining approximate sequential patterns in Web usage data streams. To meet the constraint of one scan, a greedy clustering algorithm associated to an alignment method are proposed. We will show that our proposal is able to extract relevant sequences with very low thresholds. MOTS-CLÉS : flots de données, motifs séquentiels, alignement de séquences, fouille des usages du Web, classification KEYWORDS: Data Streams, Sequential Patterns, Sequences Alignment, Web Usage Mining, Clustering

2 1. Introduction Depuis peu, des applications émergentes comme (entre autres) l analyse du trafic réseaux, la détection de fraude ou d intrusion, la fouille de clickstream 1 ou encore l analyse des données issues de capteurs ont introduit de nouveaux types de contraintes pour les méthodes de fouille. Ces applications ont donné lieu à une forme de données connues sous le nom de data streams. Dans le contexte des data streams l utilisation de la mémoire doit être réduite, les données sont générées de manière continue et très rapide, les opérations bloquantes ne sont pas envisageables et, enfin, les nouvelles données doivent être prises en compte aussi vite que possible. Dans ce domaine, l approximation a rapidement été reconnue comme un facteur clé pour fournir des motifs à la vitesse imposée par l application [GAR 02, TEN 03, GIA 03]. Dans [MAR 06] nous avons proposé SMDS, une méthode d extraction de motifs séquentiels dans les data streams. Parmi les différentes fonctionnalités de cette méthode, la segmentation des séquences est utilisée comme préalable à l extraction des motifs fréquents. Nous y avons montré l efficacité d une approche heuristique gloutonne pour la classification des séquences. Dans cet article, nous proposons l algorithme SCDS (Sequence Clustering in Data Streams) qui a pour but d améliorer les performances de l algorithme de classification utilisé dans SMDS. Le principe de SCDS est de comparer chaque séquence à un représentant de chaque cluster. La méthode de calcul de ce représentant est basée sur des techniques d alignement de séquences. SCDS est implémenté et a été testé sur des données réelles issues du serveur Web de l Inria Sophia Antipolis. Ces données collectent les informations sur les usages qui sont faits d un site Web. Les techniques d analyse de ces usages (WUM ou Web Usage Mining) fournissent des informations sur le comportement des utilisateurs du site. Parmi les méthodes existantes, celles qui extraient les motifs séquentiels sont particulièrement bien adaptées. Elles ont pour but l extraction de motifs du genre : «Sur le site de l Inria, 10% des utilisateurs visitent la page d accueil, puis la page des emplois, la page des offres d emplois ITA, la description du métier d ITA et enfin les annales des concours passés». Notre objectif est d extraire des classes de comportements (comportements qui seront représentés sous forme de séquences) à partir des flots de données d usage d un site Web. Nous montrerons que SCDS satisfait les contraintes liées à la rapidité du data stream et peut être inclus dans un environnement temps réel. De plus, lors de nos expérimentations, nous avons constaté la qualité des clusters produits par SCDS en comparaison des clusters obtenus par une méthode de clustering hiérarchique classique. Cet article est organisé de la manière suivante : tout d abord nous présentons les concepts d extraction de motifs séquentiels dans la section 2. Ensuite la section 5 expose la technique que nous avons développée dans ce travail afin de proposer une classification des séquences issues d un data stream. Nous proposons des expérimentations en section 6 avant de conclure. 1. clickstream : flot de requêtes d un utilisateur sur un site Web

3 2. Définitions 2.1. Motifs séquentiels Ce paragraphe expose et illustre la problématique liée à l extraction de motifs séquentiels dans de grandes bases de données. Il reprend les différentes définitions proposées dans [AGR 95, SRI 96, MAS 98]. La notion de séquence est définie de la manière suivante : Définition 1 Une transaction constitue, pour un client C, l ensemble des items achetés par C à une même date. Dans une base de données client, une transaction s écrit sous forme d un triplet : <id-client, id-date, itemset>. Un itemset est un ensemble non vide d items noté (i 1 i 2... i k ) où i j est un item (il s agit de la représentation d une transaction non datée). Une séquence est une liste ordonnée, non vide, d itemsets notée < s 1 s 2... s n > où s j est un itemset (une séquence est donc une suite de transactions avec une relation d ordre entre les transactions). Une séquence de données est une séquence représentant les achats d un client. Soit T 1, T 2,..., T n les transactions d un client, ordonnées par date d achat croissante et soit itemset(t i ) l ensemble des items correspondants à T i, alors la séquence de données de ce client est < itemset(t 1 ) itemset(t 2 )... itemset(t n ) >. Exemple 1 Soit C un client et S=< (3) (4 5) (8) >, la séquence de données représentant les achats de ce client. S peut être interprétée par C a acheté l item 3, puis en même temps les items 4 et 5 et enfin l item 8. Définition 2 Le support de s, noté supp(s), est le pourcentage de toutes les séquences dans D qui supportent (contiennent) s. Si supp(s) minsupp, avec une valeur de support minimum minsupp fixée par l utilisateur, la séquence s est dite fréquente. Dans cet article nous considérons des flots de données séquentielles. Il s agit donc à chaque instant i d entrées de la forme [C, T 1, T 2,..., T n ] qui représentent les transactions T 1 à T n du client C à l instant i Web Usage Mining à partir des motifs séquentiels Pour les méthodes traditionnelles de Web Usage Mining, le principe général est similaire à celui de [MAS 00]. Les données brutes sont collectées dans des fichiers logs par les serveurs. Chaque entrée dans le fichier log représente une requête faite par une machine cliente au serveur. Définition 3 Soit Log un ensemble d entrées dans le fichier access log. Une entrée g, g Log, est un tuple g =< ip g, {(l g 1.URL, lg 1.time),..., (lg m.url, lg m.time)} > tel

4 que pour 1 k m, l g k.url représente l objet demandé par le client g à la date l g k.time, et pour tout 1 j < k, lg k.time > lg j.time. La figure 1 illustre un exemple de fichier obtenu après la phase de pré-traitement pour une classe de navigations. A chaque client correspond une suite de dates (événements) et la traduction de l URL demandée par ce client à cette date. Date1 Date2 Date3 Date4 Date5 Client Client Client Figure 1. Exemple de fichier résultat issu de la phase de pré-traitement L objectif est alors de déterminer, grâce à une phase d extraction, les séquences de ce jeu de données, qui peuvent être considérées comme fréquentes selon la définition 2. Les résultats obtenus sont du type (ici avec un support minimum de 66% et en appliquant les algorithmes de fouille de données sur le fichier représenté par la figure 1). Ce dernier résultat, une fois re-traduit en termes d URLs, confirme la découverte d un comportement commun à minsup utilisateurs et fournit l enchaînement des pages qui constituent ce comportement fréquent. Enfin, l exploitation par l utilisateur des résultats obtenus est facilitée par un outil de requête et de visualisation. 3. Etat de l art Ces dernières années, des propositions ont emergé pour l extraction de motifs dans les data streams [DAT 02, CHA 03, COR 05, GIA 03, TEN 03]. [MAI, Q.Z 03, RAI 05] considèrent eux aussi l extraction de motifs séquentiels dans les data streams. Dans cette section, nous donnons un aperçu de [GIA 03],[TEN 03] et [RAI 05] FP-Streaming : extraction d itemsets fréquents Les auteurs de [GIA 03] décrivent une approche basée sur un environnement de batches et introduisent la structure FP-stream, qui permet de stocker les motifs fréquents et l évolution de leur fréquence dans le temps. Pour chaque batch, les motifs fréquents sont extraits à l aide de la méthode FP-Growth appliquée sur une structure de FP-tree qui représente les séquences du batch. Une fois les motifs fréquents extraits, la structure FP-stream ne retient que les motifs fréquents et la structure de Tilted Time Window 2 qui lui est associée. 2. La structure de Tilted Time Window est présentée et illustrée en section 4

5 3.2. FTP-DS : extraction de motifs temporels Dans [TEN 03] une méthode de regression est présentée afin d extraire les motifs d un data stream. Les auteurs proposent d enregistrer les motifs temporels extraits. Ces motifs sont représentés grace à une méthode de régression. La méthode FTP-DS qui est proposée par [TEN 03] traite les transaction par intervalles de temps. A chaque changement d intervalle, FTP-DS fait une passe sur les données de cet intervalle avec les fréquents de l intervalle précédent. FTP-DS propose alors un nouvel ensemble de candidats et refait une passe sur le nouvel intervalle avec ces candidats. Ce processus ce repète pendant la durée du data stream. FTP-DS est conçu pour extraire des motifs inter-transactions. Ces motifs sont en fait des itemsets et non des séquences, mais leur support est calculé en considérant qu un motif peut être supporté en partie par une transaction et en partie par une autre... Les auteurs expliquent que ce schéma peut être étendu à la fouille de motifs séquentiels. Cependant, nous expliquons dans [MAR 06] nos raisons de croire qu une fouille exhaustive des motifs séquentiels d un data stream peut conduire à un blocage du data stream SPEED : extraction de motifs séquentiels dans les data streams Dans [RAI 05] les auteurs proposent d extraire les motifs séquentiels d un data streams à l aide d une structure arborescente originale et efficace. Leur problème de recherche est similaire à celui qui est présenté dans ce papier, dans la mesure où ils cherchent des motifs séquentiels selon des critères de fréquence et gèrent l historique des motifs extraits à l aide de Tilted Time Windows. La structure d arbre proposée prend en compte les inclusions de séquences d un batch dans le but d optimiser leur gestion. De plus, cet arbre propose une technique de région dans le but de regrouper les sous-séquences d une séquence. 4. SMDS : une méthode d extraction de motifs séquentiels fréquents dans les data streams Dans [MAR 06] nous avons proposé SMDS, une méthode d extraction de motifs séquentiels fréquents dans les data streams. Dans cette section, nous proposons une vue synthétique sur le principe de SMDS. SMDS repose sur les étapes suivantes (illustrées par la figure 2) : 1) Découpage du data stream en batches de taille fixe. Les batches contiennent le même nombre de transactions, mais le nombre de séquences peut varier en fonction de leur taille. Le reste de la description de SMDS concerne le traitement de chaque batch. 2) Classification des séquences contenues dans le batch. Cette étape est réalisée grâce à un algorithme naïf. Cet algorithme naïf est basé sur la plus longue sous-

6 séquence commune entre deux séquences (PLSC). L algorithme est initialisé avec une seule classe, qui contient la première navigation. Ensuite, pour chaque navigation n dans le batch, n est comparée avec chaque cluster c. Aussitôt que n est similaire à une séquence de c alors n est insérée dans c. Si n n est insérée dans aucun cluster, alors un nouveau cluster est crée et n est insérée dans ce nouveau cluster. La similitude entre deux séquences (sim(s 1, s 2 )) est donnée dans la définition 4. s est insérée dans c si la condition suivante est respectée : s c c/sim(s, s c ) minsim, avec minsim la similitude minimum, spécifiée par l utilisateur. 3) Alignement des séquences de chaque cluster. Dans cette étape, SMDS utilise une technique d alignement des séquences (décrite en section 5.1) afin de résumer chaque cluster. La séquence alignée obtenue à partir d un cluster, sera considérée comme une séquence fréquente extraite à partir du batch. 4) Stockage et gestion des séquences. Un enjeu majeur de l extraction de motifs dans les data streams se situe dans la gestion de l historique des motifs extraits. En effet, cet historique représente le suivi d un motif et son évolution au fil du data stream (la vision sur un seul batch étant trop peu informative pour l utilisateur final). Pour gérer les motifs nous avons choisi de les stocker dans une structure d arbre préfixé. A chaque noeud de l arbre est ensuite associée une structure de donnée du type Tilted Time Window [GIA 03]). La structure de Tilted Time Window repose sur l idée que l on est plus intéressé par les événements récents que par les événements passés. Il s agit donc de retenir le support d un motif avec une granularité fine pour les batches récents et une granularité élevée (on fusionne plusieurs batches et on ne retient que le support moyen) pour les batches plus anciens. Par exemple, dans la figure 2, à l étape 4, les séquences < (a) (b) (d) >, < (a) (b) (e) > et < (m) (n) (p) > sont stockées dans un arbre préfixé. La séquence < (m) (n) (p) > est associée à la table de Tilted Time Window qui contient cinq valeurs de support. Cette table s interprète de la manière suivante : pour le batch n 1, le support de la séquence est de 18%, pour le batch n 2 ce support est de 20%. Ensuite, pour les batches plus éloignés, une approximation sur le support est introduite. On fusionne donc les batches 3 et 4 pour conserver un support moyen de 17%. Puis on fusionne les supports des batches 5 à 8 (16%) et enfin les batches 9 à 16 (8%). La mise à jour de cette structure se fait en cascade (décalages successifs et mise à jour incrémentale des supports moyens). Définition 4 Soient s 1 et s 2 deux motifs séquentiels. Soit P LSC(s 1, s 2 ) la longueur de la plus longue sous-séquence commune entre s 1 et s 2. La distance dist(s 1, s 2 ) entre s 1 et s 2 est définie de la manière suivante : dist = 1 2 P LSC(s 1,s 2) longueur(s 1)+longueur(s 2). Notre objectif, dans ce travail, est d améliorer les temps de réponse de l algorithme SMDS, tout en conservant une qualité optimale des clusters. Notre méthode SCDS, développée dans ce sens, est présentée dans la section 5.

7 Figure 2. Vue d ensemble des étapes de SMDS. 5. SCDS : principe général Notre méthode est basée sur un environnement de découpage du data stream en batches de taille fixe. Soient B 1, B 2,...B n, les batches et B n, le batch courant. Le principe de SCDS est de segmenter les séquences contenues dans chaque batch b de [B 1..B n ]. Dans le but d obtenir une classification des navigations aussi rapidement que possible, notre approche fonctionne de la manière suivante : l algorithme est initialisé avec une seule classe, qui contient la première navigation. Ensuite, pour chaque navigation n dans le batch, n est comparée avec chaque cluster c. Soit c le cluster dont le centroïde est le plus proche de n, alors n est insérée dans c. Si n n est insérée dans aucun cluster, alors un nouveau cluster est crée et n est insérée dans ce nouveau cluster. Trois étapes sont donc essentielles dans ce processus. La première est le calcul du centroïde ς c du cluster c. Ce calcul est détaillé dans la section 5.1. Ensuite pour comparer la séquence de navigation n avec le cluster c, nous proposons de définir la similitude entre n et le centroïde de c. Cette étape est expliquée dans la section 5.2. Enfin, l ajout d une séquence dans un cluster implique de mettre à jour son centroïde.

8 Etape 1 : S 1 : <(a,c) (e) () (m,n)> S 2 : <(a,d) (e) (h) (m,n)> SA 12 : (a :2, c :1, d :1) :2 (e :2) :2 (h :1) :1 (m :2, n :2) :2 Etape 2 : SA 12 : (a :2, c :1, d :1) :2 (e :2) :2 (h :1) :1 (m :2, n :2) :2 S 3 : <(a,b) (e) (i,j) (m)> SA 13 : (a :3, b :1, c :1, d :1) :3 (e :3) :3 (h :1, i :1, j :1) :2 (m :3, n :2) :3 Etape 3 : SA 13 : (a :3, b :1, c :1, d :1) :3 (e :3) :3 (h :1, i :1, j :1) :2 (m :3, n :2) :3 S 4 : <(b) (e) (h,i) (m)> SA 14 : (a :3, b :2, c :1, d :1) :4 (e :4) :4 (h :2, i :2, j :1) :3 (m :4, n :2) :4 Figure 3. Etapes de l alignement de séquences 5.1. Calcul du centroïde Le centroïde du cluster est déterminé par une technique d alignement appliquée sur le cluster (comme [KUM 03, HAY 02] l ont déjà utilisée pour la fouille de bases de données statiques). A l initialisation d un cluster son centroïde est la séquence unique qu il contient. L alignement des séquences renvoie une séquence alignée du type : SA =< I 1 : n 1, I 2 : n 2,..., I r, n r >: m. Dans cette représentation, m représente le nombre total de séquences impliquées dans l alignement. I p (1 p r) est un itemset représenté sous la forme (x i1 : m i1,...x it : m it ), où m it est le nombre de séquences qui contiennent l item x i à la p eme position dans la séquence alignée. Enfin, n p est le nombre d occurrences de l itemset I p dans l alignement. L exemple 2 décrit le processus d alignement de quatre séquences. À partir de deux séquences, l alignement commence par insérer des itemsets vides (au début, au milieu ou à la fin des séquences) jusqu à ce que les deux séquences contiennent le même nombre d itemsets. Exemple 2 Considérons les séquences suivantes : S 1 =< (a,c) (e) (m,n) >, S 2 =< (a,d) (e) (h) (m,n) >, S 3 =< (a,b) (e) (i,j) (m) > et S 4 =< (b) (e) (h,i) (m) >. Les étapes conduisant à l alignement de ces séquences sont détaillées dans la figure 3. Tout d abord, un itemset vide est inséré dans S 1. Ensuite S 1 et S 2 sont alignées dans le but de produire SA 12. Le processus d alignement est alors appliqué entre SA 12 et S 3. La méthode d alignement continue à traiter les séquences deux par deux jusqu à la dernière séquence. À la fin du processus d alignement, la séquence alignée (SA 14 dans la figure 3) est considérée comme le centroïde du cluster. Dans SCDS, l alignement se fait de manière incrémentale à chaque ajout d une séquence dans le cluster. Pour cela nous maintenons

9 Séq a b c s s Séq n i=1 similmatrice(s, s i) s 1 16 s 2 14 s n 13 s s n 1 1 Figure 4. Distances entre les séquences une matrice de comptage des items dans chaque séquence et un tableau des distances entre chaque séquence et les autres. Ces éléments sont illustrés par la figure 4. La matrice (à gauche) stocke pour chaque séquence le nombre d apparitions de chaque item dans cette séquence. Par exemple la séquence s 1 contient deux fois l item a. Le tableau des distances stocke la somme des similitudes (similm atrice) entre chaque séquence et les autres séquences du cluster. Soit s 1i le nombre d apparitions de l item i dans la séquence s 1 et m le nombre total d items. similmatrice est calculé grâce à la matrice de la manière suivante : similmatrice(s 1, s 2 ) = m i=1 min(s 1 i, s 2i ). Par exemple, avec les séquences s 1 et s 2 de la matrice donnée à la figure 4 cette somme vaut s 1a + s 2b + s 2c = = 2. Cet alignement n est cependant pas toujours calculé de manière incrémentale. Considérons l ajout d une séquence s n. Tout d abord s n est ajoutée à la matrice et sa distance aux autres séquences est calculée ( n i=1 similmatrice(s n, s i )). s n est alors insérée dans le tableau de distances, en gardant l ordre décroissant des valeurs de distances. Par exemple, dans la figure 4, s n est insérée après s 2. Soit r le rang auquel s n est insérée (dans notre exemple, r = 2) dans c. Il y a alors deux possibilités après l insertion de s n : 1) r > 0.5 c. Dans ce cas, l alignement est calculé de manière incrémentale et ς c = alignement(ς c, s n ). 2) r 0.5 c. Dans ce cas il faut rafraîchir le centroïde du cluster et l alignement est recalculé pour toutes les séquences du cluster Comparaison séquence/centroïde Soit s la séquence à affecter dans un cluster et C l ensemble des clusters. SCDS parcourt l ensemble des clusters de C et pour chaque cluster c C, effectue une comparaison entre s et ς c (le centroïde de c, qui est donc un alignement). Cette com-

10 paraison est basée sur la plus longue sous-séquence commune (PLSC) entre s et ς c. Ensuite, la longueur de la séquence est également prise en compte car elle doit être comprise entre 80% et 120% de la longueur de la séquence alignée. Soit t la longueur de la première séquence insérée dans c. Les conditions pour que s soit affectée à c sont donc les suivantes : d C/d c, dist(s, ς c ) dist(s, ς d ) 0.8 t s 1.2 t dist(s, ς c ) < 0.3 La première condition assure que s est affectée dans le cluster dont le centroïde est le plus similaire à s. La deuxième condition assure que les clusters contiendront des séquences de taille homogène et que la taille moyenne des séquences d un cluster variera peu. Enfin la troisième condition assure que si aucun centroïde ayant un degré de similitude supérieur à 70% avec s n est trouvé, alors s n est affecté à aucun cluster. Dans ce dernier cas, un nouveau cluster est crée et s y est affectée. 6. Expérimentations SCDS a été implémenté en Java sur un Pentium (2,1 Ghz) exploité par un système Linux Fedora. Nous avons évalué notre proposition sur des réelles issues des usages du Web de l Inria Sophia Antipolis Temps de réponse et robustesse de SCDS Figure 5. Temps d exécution de SCDS.

11 Dans le but de montrer l efficacité de SCDS, nous reportons à la figure 5 le temps nécessaire pour classer les séquences sur chaque batch correspondant à des données d usage sur le site Web de l Inria. Les données ont été collectées sur une période de 14 mois et représentent 14 Go. Le nombre total de navigations est de 3,5 millions pour navigations. Nous avons découpé le fichier log en batches de 4500 transactions (soit environ 1500 séquences en moyenne). Nous avons comparé ce temps de réponse à celui de SMDS [MAR 06] qui n optimise pas la phase de clustering. En effet dans SMDS, la séquence à classer s est comparée à toutes les séquences de tous les clusters, jusqu à ce que l un des clusters présente une séquence compatible avec s. Nous pouvons observer que le temps de réponse de SCDS varie de 1000 ms à 2000 ms alors que le temps d exécution de SMDS varie de 2500 ms à 4000 ms. Nous avons ajouté à la figure 5 le nombre de séquences de chaque batch pour expliquer les différences de temps d exécution d un batch à un autre. On peut observer, par exemple, que le batch 1 contient 1750 séquences et que SCDS demande 1400 ms pour en extraire les motifs séquentiels. Figure 6. Clustering hiérarchique des séquences d un batch. Nous avons également implémenté un clustering hiérarchique sur les séquences de chaque batch. Le principe de ce clustering est décrit par la figure 6. Chaque séquence du batch est d abord considérée comme un cluster (voir étape 0 de la figure 6). A chaque étape la matrice des similitudes entre chaque cluster est calculée. Par exemple entre <(a)(b)> et <(b)(c)> la similitude est de 50%, les deux séquences partagent en effet la moitié de leurs informations. Entre <(a)(b)> et <(d)(e)> en revanche, la similitude est de 0%. Les deux séquences n ont rien en commun. Les deux clusters les plus proches (ici il s agit d un ex-aequo entre {<(a)(b)>, <(b)(c)>} d un côté et {<(d)(e)>, <(d)(f)>} de l autre) sont regroupés en un seul cluster. L étape 2 de la figure 6 nous montre en effet trois clusters : {<(a)(b)>, <(b)(c)>}, {<(d)(e)>} et {<(d)(f)>}. Ce processus est alors réitéré jusqu à ce que plus aucun cluster n affiche une similitude supérieure à zéro avec au moins un des clusters restants. La dernière étape de la figure 6 nous montre donc le résultat de cette classification : {<(a)(b)>, <(b)(c)>} et {<(d)(e)>, <(d)(f)>}.

12 La comparaison avec les temps d exécution du clustering hiérarchique est reportée à la figure 7 pour les 10 premiers batches. On peut y observer que SCDS obtient les résultats en un temps compris entre 1000 ms et 2000 ms. Le clustering hiérarchique nécessite entre ms et ms. Plus précisément, le temps d exécution moyen de SCDS est de 1485 ms, contre ms pour le clustering hiérarchique. Figure 7. Temps de réponses du clustering hiérarchique et de SCDS pour 10 batches 6.2. Analyse de la qualité des clusters Figure 8. Distance globale, batch par batch

13 Afin de mesurer la qualité des classes produites par SCDS, notre principal outil sera la distance entre deux séquences. Soit s 1 et s 2, deux séquences, la distance dist(s 1, s 2 ) entre s 1 et s 2 est basée sur sim(s 1, s 2 ), la mesure de similitude donnée par la définition 4 et telle que dist(s 1, s 2 ) = 1 sim(s 1, s 2 ). On a donc dist(s 1, s 2 ) [0..1] et dist(s 1, s 2 ) proche de 0 signifie que les séquences sont proches (similaires si cette valeur est nulle) alors que dist(s 1, s 2 ) proche de 1 signifie que les séquences sont éloignées (ne partagent aucun item si cette valeur est 1). Nous reportons dans la figure 8 la double moyenne DBM après avoir traité chaque batch. Soit C l ensemble des classes, DBM est calculée de la manière suivante : DBM = i C dist(x,c i ) x C i C i C Avec c i le centre de C i (la i eme classe). Soit C i la i eme classe, le centre de C i est une séquence c i telle que : s C i, x C i dist(s, x) y C i dist(c i, y). La valeur finale de DBM à la fin du batch est donnée par la figure 8. On peut y observer que DBM est comprise entre 15% et 45%. A la fin du processus, la valeur moyenne de DBM est de 28% (une qualité moyenne des classes de 72%). Afin de compléter notre étude de la qualité des clusters obtenus avec SCDS, nous avons utilisé les mesures d entropie et pureté, par comparaison avec les clusters obtenus par le clustering hiérarchique. L entropie d un cluster C de taille n r est calculée selon la formule suivante : E(C) = 1 logq q i=1 n i r n r log ni r n r, où q est le nombre total de clusters et n i r est le nombre de séquences du i eme cluster qui font partie du cluster C. L entropie du clustering est ensuite donnée par la formule : Entropie = k n r r=1 n E(C r ), avec n le nombre total de séquences. On considère qu une petite valeur d entropie traduit un bon clustering (par rapport au clustering de référence). La pureté d un cluster est donnée définie par : P (C r ) = 1 n r max(n i r ) et la pureté du clustering est donnée par la formule suivante : P urete = k n r r=1 n P (C r ). Une grande valeur de pureté traduit un bon clustering par rapport au clustering de référence.

14 Les valeurs que nous avons obtenues pour l entropie et la pureté sur les 10 premiers batches sont données dans le tableau suivant : Batch Entropie Pureté 1 0, , , , , , , , , , , , , , , , , , , , On peut observer que la valeur de l entropie se situe entre et 0.02 et que la valeur de la pureté se situe entre 0.92 et Lors de ces expérimentations, la valeur moyenne de l entropie a été de et la valeur moyenne de la pureté a été de Conclusion Dans ce papier, nous avons proposé la méthode SCDS pour classer les séquences dans les data streams. Notre algorithme repose sur une technique d alignement des séquences et un clustering basé sur une comparaison des séquences avec le centroïde de chaque cluster. Ce centroïde est représenté par l alignement calculé sur le cluster de manière incrémentale. Nos expérimentations ont montré que SCDS traite le data stream assez rapidement pour être intégré dans un contexte temps réel. En effet les temps de réponse de SCDS montrent que ce dernier est bien plus performant que SMDS, proposé dans une communication précédente. Enfin nous avons proposé, lors de nos expérimentations, une comparaison de SCDS avec un clustering hiérarchique. Cette comparaison est faite de point de vue des temps d exécution mais également sur le plan de la qualité des résultats. Nous avons montré que les clusters sont très satisfaisants avec SCDS (entropie et pureté) pour des temps d exécution très largement inférieurs. 8. Bibliographie [AGR 95] AGRAWAL R., SRIKANT R., «Mining Sequential Patterns», Proceedings of the 11th International Conference on Data Engineering (ICDE 95), Taiwan, March [CHA 03] CHANG J. H., LEE W. S., «Finding recent frequent itemsets adaptively over online data streams», KDD 03 : Proceedings of the ninth international conference on Knowledge discovery and data mining, 2003, p [COR 05] CORMODE G., MUTHUKRISHNAN S., «What s hot and what s not : tracking most frequent items dynamically», ACM Trans. Database Syst., vol. 30, n o 1, 2005, p

15 [DAT 02] DATAR M., GIONIS A., INDYK P., MOTWANI R., «Maintaining stream statistics over sliding windows», Proceedings of the thirteenth annual ACM-SIAM symposium on Discrete algorithms (SODA), 2002, p [GAR 02] GAROFALAKIS M., GEHRKE J., RASTOGI R., «Querying and mining data streams : you only get one look a tutorial», SIGMOD 02 : Proceedings of the 2002 ACM SIGMOD international conference on Management of data, [GIA 03] GIANNELLA C., HAN J., PEI J., YAN X., YU P., «Mining Frequent Patterns in Data Streams at Multiple Time Granularities», In H. Kargupta, A. Joshi, K. Sivakumar, and Y. Yesha (eds.), Next Generation Data Mining, AAAI/MIT, [HAY 02] HAY B., WETS G., VANHOOF K., «Web Usage Mining by Means of Multidimensional Sequence Alignment Method», WEBKDD, 2002, p [KUM 03] KUM H., PEI J., WANG W., DUNCAN D., «ApproxMAP : Approximate Mining of Consensus Sequential Patterns», Proceedings of SIAM Int. Conf. on Data Mining, San Francisco, CA, [MAI ] MAIDS, «MAIDS project : http ://maids.ncsa.uiuc.edu/index.html». [MAR 06] MARASCU A., MASSEGLIA F., «Extraction de motifs séquentiels dans les flots de données d usage du Web», Actes des 6èmes journées "extraction et gestion des connaissances" (EGC 06), Lille, France, [MAS 98] MASSEGLIA F., CATHALA F., PONCELET P., «The PSP Approach for Mining Sequential Patterns», Proceedings of the 2nd European Symposium on Principles of Data Mining and Knowledge Discovery, Nantes, France, September [MAS 00] MASSEGLIA F., PONCELET P., CICCHETTI R., «An efficient algorithm for Web usage mining», Networking and Information Systems Journal (NIS),, April [Q.Z 03] Q. ZHENG K. X., MA S., «When to Update the Sequential Patterns of Stream Data?», 7th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), 2003, p [RAI 05] RAISSI C., PONCELET P., TEISSEIRE M., «Need for SPEED : Mining Sequential Pattens in Data Streams», Actes des 21iemes Journees Bases de Donnees Avancees (BDA 2005), October [SRI 96] SRIKANT R., AGRAWAL R., «Mining Sequential Patterns : Generalizations and Performance Improvements», Proceedings of the 5th International Conference on Extending Database Technology (EDBT 96), Avignon, France, September 1996, p [TEN 03] TENG W.-G., CHEN M.-S., YU P. S., «A Regression-Based Temporal Pattern Mining Scheme for Data Streams», VLDB, 2003, p

Application de K-means à la définition du nombre de VM optimal dans un cloud

Application de K-means à la définition du nombre de VM optimal dans un cloud Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Etude d Algorithmes Parallèles de Data Mining

Etude d Algorithmes Parallèles de Data Mining REPUBLIQUE TUNISIENNE MINISTERE DE L ENSEIGNEMENT SUPERIEUR, DE LA TECHNOLOGIE ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE DE TUNIS ELMANAR FACULTE DES SCIENCES DE TUNIS DEPARTEMENT DES SCIENCES DE L INFORMATIQUE

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce Algorithmes : K-means et Apriori Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Cloud Computing et MapReduce

Plus en détail

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,

Plus en détail

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Mostafa HANOUNE*, Fouzia BENABBOU* *Université Hassan II- Mohammedia, Faculté des sciences

Plus en détail

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy. Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.fr 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

BIG Data et R: opportunités et perspectives

BIG Data et R: opportunités et perspectives BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,

Plus en détail

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services 69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard

Plus en détail

Forthcoming Database

Forthcoming Database DISS.ETH NO. 15802 Forthcoming Database A Framework Approach for Data Visualization Applications A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet Beat Wolf 1, Pierre Kuonen 1, Thomas Dandekar 2 1 icosys, Haute École Spécialisée de Suisse occidentale,

Plus en détail

Bases de Données Avancées

Bases de Données Avancées 1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,

Plus en détail

Once the installation is complete, you can delete the temporary Zip files..

Once the installation is complete, you can delete the temporary Zip files.. Sommaire Installation... 2 After the download... 2 From a CD... 2 Access codes... 2 DirectX Compatibility... 2 Using the program... 2 Structure... 4 Lier une structure à une autre... 4 Personnaliser une

Plus en détail

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation Complex Event Processing Traitement de flux de données en temps réel Romain Colle R&D Project Manager Quartet FS Plan Génération et exploitation de données CEP et applications Flux de données et notifications

Plus en détail

Diagnostic adaptatif d'un flux d'alarmes par méta diagnostic distribué Application à la détection d'intrusions dans un serveur Web

Diagnostic adaptatif d'un flux d'alarmes par méta diagnostic distribué Application à la détection d'intrusions dans un serveur Web LogAnalyzer Thomas Guyet 1,2, René Quiniou 2 et Marie Odile Cordier 3 1 AGROCAMPUS OUEST 2 INRIA/IRISA Centre de Rennes (Équipe DREAM) 3 Université de Rennes/IRISA (Équipe DREAM) Contact : thomas.guyet@irisa.fr

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

Hervé Couturier EVP, SAP Technology Development

Hervé Couturier EVP, SAP Technology Development Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud

Plus en détail

CCNA Discovery Travailler dans une PME ou chez un fournisseur de services Internet

CCNA Discovery Travailler dans une PME ou chez un fournisseur de services Internet Curriculum Name Guide du participant CCENT 3 Section 9.3 Dépannage de l adressage IP de la couche 3 Cette section consacrée au dépannage vous permettra d étudier les conditions nécessaires à l obtention

Plus en détail

ANGULAR JS AVEC GDE GOOGLE

ANGULAR JS AVEC GDE GOOGLE ANGULAR JS AVEC GDE GOOGLE JUIN 2015 BRINGING THE HUMAN TOUCH TO TECHNOLOGY 2015 SERIAL QUI SUIS-JE? ESTELLE USER EXPERIENCE DESIGNER BUSINESS ANALYST BRINGING THE HUMAN TOUCH TO TECHNOLOGY SERIAL.CH 2

Plus en détail

Une méthode d apprentissage pour la composition de services web

Une méthode d apprentissage pour la composition de services web Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,

Plus en détail

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG) Surveillance et maintenance prédictive : évaluation de la latence de fautes Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG) SURVEILLANCE Analyser une situation et fournir des indicateurs! Détection de symptômes!

Plus en détail

WEB page builder and server for SCADA applications usable from a WEB navigator

WEB page builder and server for SCADA applications usable from a WEB navigator Générateur de pages WEB et serveur pour supervision accessible à partir d un navigateur WEB WEB page builder and server for SCADA applications usable from a WEB navigator opyright 2007 IRAI Manual Manuel

Plus en détail

La continuité de service

La continuité de service La continuité de service I INTRODUCTION Si la performance est un élément important de satisfaction de l'utilisateur de réseau, la permanence de la disponibilité des ressources l'est encore davantage. Ici

Plus en détail

Le service FTP. M.BOUABID, 04-2015 Page 1 sur 5

Le service FTP. M.BOUABID, 04-2015 Page 1 sur 5 Le service FTP 1) Présentation du protocole FTP Le File Transfer Protocol (protocole de transfert de fichiers), ou FTP, est un protocole de communication destiné à l échange informatique de fichiers sur

Plus en détail

Exemple PLS avec SAS

Exemple PLS avec SAS Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that

Plus en détail

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF CEST MAINTENANT PDF ==> Download: CEST MAINTENANT PDF CEST MAINTENANT PDF - Are you searching for Cest Maintenant Books? Now, you will be happy that at this time Cest Maintenant PDF is available at our

Plus en détail

Prototype de canal caché dans le DNS

Prototype de canal caché dans le DNS Manuscrit auteur, publié dans "Colloque Francophone sur l Ingénierie des Protocoles (CFIP), Les Arcs : France (2008)" Prototype de canal caché dans le DNS Lucas Nussbaum et Olivier Richard Laboratoire

Plus en détail

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication R. Carlos Nana Mbinkeu 1,3, C. Tangha 1, A. Chomnoue 1, A. Kuete

Plus en détail

BAP E Gestionnaire de parc informatique et télécommunications MI2 / MI3 Ouverts au titre de 2010 Arrêté du 7/04/10 - J.

BAP E Gestionnaire de parc informatique et télécommunications MI2 / MI3 Ouverts au titre de 2010 Arrêté du 7/04/10 - J. BAP E Gestionnaire de parc informatique et télécommunications MI2 / MI3 Ouverts au titre de 2010 Arrêté du 7/04/10 - J.O du 25/04/2010 Epreuve écrite d admission du lundi 21 juin 2010 de 10h00 à 12h00

Plus en détail

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne Online Applications Tutorial 1/4 Pour postuler aux Appels d Offres de l ENP, vous devez aller sur la plateforme : calls.parisneuroscience.fr.

Plus en détail

Modélisation d objets mobiles dans un entrepôt de données

Modélisation d objets mobiles dans un entrepôt de données Tao Wan, Karine Zeitouni Laboratoire PRISM, Université de Versailles 45, avenue des Etats-Unis, 78035 Versailles Cedex, France Tao.Wan@prism.uvsq.fr, Karine.Zeitouni@prism.uvsq.fr http://www.prism.uvsq.fr/users/karima/

Plus en détail

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013 Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Temporal pattern mining: beyond (simple) sequential patterns Fouille de motifs temporels : au-delà des motifs séquentiels (simples)

Temporal pattern mining: beyond (simple) sequential patterns Fouille de motifs temporels : au-delà des motifs séquentiels (simples) Data Mining Temporal pattern mining: beyond (simple) sequential patterns Fouille de motifs temporels : au-delà des motifs séquentiels (simples) 1 Outline Classical sequential pattern-mining methods GSP

Plus en détail

et Active Directory Ajout, modification et suppression de comptes, extraction d adresses pour les listes de diffusion

et Active Directory Ajout, modification et suppression de comptes, extraction d adresses pour les listes de diffusion et Active Directory Ajout, modification et suppression de comptes, extraction d adresses pour les listes de diffusion Copyright 2009 Alt-N Technologies. 3 allée de la Crabette Sommaire Résumé... 3 MDaemon

Plus en détail

Entreposage de données complexes pour la médecine d anticipation personnalisée

Entreposage de données complexes pour la médecine d anticipation personnalisée Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Forge. Présentation ( )

Forge. Présentation ( ) ( RetourListeFichesParThèmes ) Forge Présentation Définition Objectifs Services fournis, fonctions disponibles Services en ligne d hébergement de projets La solution des logiciels intégrés pour le déploiement

Plus en détail

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION THÈSE N O 2388 (2001) PRÉSENTÉE AU DÉPARTEMENT D'INFORMATIQUE ÉCOLE POLYTECHNIQUE FÉDÉRALE

Plus en détail

Préparer un état de l art

Préparer un état de l art Préparer un état de l art Khalil DRIRA LAAS-CNRS, Toulouse Unité de recherche ReDCAD École Nationale d ingénieurs de Sfax Étude de l état de l art? Une étude ciblée, approfondie et critique des travaux

Plus en détail

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00 Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00 HFFv2 1. OBJET L accroissement de la taille de code sur la version 2.0.00 a nécessité une évolution du mapping de la flash. La conséquence de ce

Plus en détail

Découverte des dépendances fonctionnelles conditionnelles fréquentes

Découverte des dépendances fonctionnelles conditionnelles fréquentes Découverte des dépendances fonctionnelles conditionnelles fréquentes Thierno Diallo et Noël Novelli Université de Lyon, LIRIS, CNRS-UMR5205 7 av, Jean Capelle, 69621 Villeurbanne Cedex, France thierno.diallo@insa-lyon.fr

Plus en détail

AGROBASE : un système de gestion de données expérimentales

AGROBASE : un système de gestion de données expérimentales AGROBASE : un système de gestion de données expérimentales Daniel Wallach, Jean-Pierre RELLIER To cite this version: Daniel Wallach, Jean-Pierre RELLIER. AGROBASE : un système de gestion de données expérimentales.

Plus en détail

Contents Windows 8.1... 2

Contents Windows 8.1... 2 Workaround: Installation of IRIS Devices on Windows 8 Contents Windows 8.1... 2 English Français Windows 8... 13 English Français Windows 8.1 1. English Before installing an I.R.I.S. Device, we need to

Plus en détail

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178 Thèse no. 7178 PROBLEMES D'OPTIMISATION DANS LES SYSTEMES DE CHAUFFAGE A DISTANCE présentée à l'ecole POLYTECHNIQUE FEDERALE DE ZURICH pour l'obtention du titre de Docteur es sciences naturelles par Alain

Plus en détail

APPEL A PROJETS DATE LIMITE : 18 JUIN 2009

APPEL A PROJETS DATE LIMITE : 18 JUIN 2009 Conseil Scientifique Appel d offres 2009 Programmes pluridisciplinaires APPEL A PROJETS DATE LIMITE : 18 JUIN 2009 DOSSIER DE CANDIDATURE 1. RENSEIGNEMENTS ADMINISTRATIFS PROGRAMME PLURIDISCIPLINAIRE CONCERNE

Plus en détail

Introduction aux SGBDR

Introduction aux SGBDR 1 Introduction aux SGBDR Pour optimiser une base Oracle, il est important d avoir une idée de la manière dont elle fonctionne. La connaissance des éléments sous-jacents à son fonctionnement permet de mieux

Plus en détail

ÉVALUATION PRIMAIRE D UN SYSTÈME D AIDE AU CONTRÔLE AÉRIEN EN ROUTE

ÉVALUATION PRIMAIRE D UN SYSTÈME D AIDE AU CONTRÔLE AÉRIEN EN ROUTE Proceedings of the SELF-ACE 001 Conference Ergonomics for changing work ÉVALUATION PRIMAIRE D UN SYSTÈME D AIDE AU CONTRÔLE AÉRIEN EN ROUTE CELLIER JEAN-MARIE Laboratoire Travail et Cognition (LTC), UMR

Plus en détail

Must Today s Risk Be Tomorrow s Disaster? The Use of Knowledge in Disaster Risk Reduction

Must Today s Risk Be Tomorrow s Disaster? The Use of Knowledge in Disaster Risk Reduction Must Today s Risk Be Tomorrow s Disaster? The Use of Knowledge in Disaster Risk Reduction Website: https://dce.yorku.ca/crhn/ Submission information: 11th Annual Canadian Risk and Hazards Network Symposium

Plus en détail

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013 Les enjeux du Big Data Innovation et opportunités de l'internet industriel François Royer froyer@datasio.com Accompagnement des entreprises dans leurs stratégies quantitatives Valorisation de patrimoine

Plus en détail

MANUEL MARKETING ET SURVIE PDF

MANUEL MARKETING ET SURVIE PDF MANUEL MARKETING ET SURVIE PDF ==> Download: MANUEL MARKETING ET SURVIE PDF MANUEL MARKETING ET SURVIE PDF - Are you searching for Manuel Marketing Et Survie Books? Now, you will be happy that at this

Plus en détail

Métriques de performance pour les algorithmes et programmes parallèles

Métriques de performance pour les algorithmes et programmes parallèles Métriques de performance pour les algorithmes et programmes parallèles 11 18 nov. 2002 Cette section est basée tout d abord sur la référence suivante (manuel suggéré mais non obligatoire) : R. Miller and

Plus en détail

Instructions Mozilla Thunderbird Page 1

Instructions Mozilla Thunderbird Page 1 Instructions Mozilla Thunderbird Page 1 Instructions Mozilla Thunderbird Ce manuel est écrit pour les utilisateurs qui font déjà configurer un compte de courrier électronique dans Mozilla Thunderbird et

Plus en détail

Cours Bases de données

Cours Bases de données Informations sur le cours Cours Bases de données 9 (10) séances de 3h Polycopié (Cours + TD/TP) 3 année (MISI) Antoine Cornuéjols www.lri.fr/~antoine antoine.cornuejols@agroparistech.fr Transparents Disponibles

Plus en détail

2 Serveurs OLAP et introduction au Data Mining

2 Serveurs OLAP et introduction au Data Mining 2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Quelques patterns pour la persistance des objets avec DAO DAO. Principe de base. Utilité des DTOs. Le modèle de conception DTO (Data Transfer Object)

Quelques patterns pour la persistance des objets avec DAO DAO. Principe de base. Utilité des DTOs. Le modèle de conception DTO (Data Transfer Object) Quelques patterns pour la persistance des objets avec DAO Ce cours présente des modèles de conception utilisés pour effectuer la persistance des objets Université de Nice Sophia-Antipolis Version 1.4 30/8/07

Plus en détail

CEST POUR MIEUX PLACER MES PDF

CEST POUR MIEUX PLACER MES PDF CEST POUR MIEUX PLACER MES PDF ==> Download: CEST POUR MIEUX PLACER MES PDF CEST POUR MIEUX PLACER MES PDF - Are you searching for Cest Pour Mieux Placer Mes Books? Now, you will be happy that at this

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,

Plus en détail

Outils de traitements de logs Apache

Outils de traitements de logs Apache Outils de traitements de logs Apache 1) Anonymisation des logs 2) Outil visuel d'exploration des données 3) Adaptation d'un robot 1 Anonymisation des logs Objectifs : Anonymiser les logs du point de vue

Plus en détail

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE I N T E RS Y S T E M S INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE David Kaaret InterSystems Corporation INTERSySTEMS CAChé CoMME ALTERNATIvE AUx BASES de données RéSIdENTES

Plus en détail

Les Portfolios et Moodle Petit inventaire

Les Portfolios et Moodle Petit inventaire Les Portfolios et Moodle Petit inventaire Jean.Fruitete@univ-nantes.fr Sommaire Les Portfolios et Moodle Petit inventaire... 1 Introduction... 1 Contexte... 1 Des portfolios utilisés dans la communauté

Plus en détail

DOCUMENTATION - FRANCAIS... 2

DOCUMENTATION - FRANCAIS... 2 DOCUMENTATION MODULE CATEGORIESTOPMENU MODULE CREE PAR PRESTACREA INDEX : DOCUMENTATION - FRANCAIS... 2 INSTALLATION... 2 CONFIGURATION... 2 LICENCE ET COPYRIGHT... 3 SUPPORT TECHNIQUE ET MISES A JOUR...

Plus en détail

BIRT (Business Intelligence and Reporting Tools)

BIRT (Business Intelligence and Reporting Tools) BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»

Plus en détail

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on ONTARIO Court File Number at (Name of court) Court office address Applicant(s) (In most cases, the applicant will be a children s aid society.) Full legal name & address for service street & number, municipality,

Plus en détail

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past! > Le passé composé le passé composé C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past! «Je suis vieux maintenant, et ma femme est vieille aussi. Nous n'avons pas eu d'enfants.

Plus en détail

English Q&A #1 Braille Services Requirement PPTC 144918. Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

English Q&A #1 Braille Services Requirement PPTC 144918. Q1. Would you like our proposal to be shipped or do you prefer an electronic submission? English Q&A #1 Braille Services Requirement PPTC 144918 Q1. Would you like our proposal to be shipped or do you prefer an electronic submission? A1. Passport Canada requests that bidders provide their

Plus en détail

Acronymes et abréviations. Acronymes / Abbréviations. Signification

Acronymes et abréviations. Acronymes / Abbréviations. Signification Acronymes et abréviations Acronymes / Abbréviations Signification AD CS Active Directory Certificate Services CA Certification Authority CRL Certificate Revocation List CDP Certificate Distribution Points

Plus en détail

Évaluation des logiciels et autres réalisations

Évaluation des logiciels et autres réalisations DOCUMENT D ANALYSE DE LA COMMISSION D ÉVALUATION DE L INRIA Évaluation des logiciels et autres réalisations Préparé par David Margery, Jean-Pierre Merlet, Cordelia Schmid, Agnès Sulem, Paul Zimmermann

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

BNP Paribas Personal Finance

BNP Paribas Personal Finance BNP Paribas Personal Finance Financially fragile loan holder prevention program CUSTOMERS IN DIFFICULTY: QUICKER IDENTIFICATION MEANS BETTER SUPPORT Brussels, December 12th 2014 Why BNPP PF has developed

Plus en détail

Installation d'un TSE (Terminal Serveur Edition)

Installation d'un TSE (Terminal Serveur Edition) Installation d'un TSE (Terminal Serveur Edition) Par LoiselJP Le 01/05/2013 (R2) 1 Objectifs Le TSE, comprenez Terminal Server Edition est une application de type 'main-frame' de Microsoft qui réside dans

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Analyse des données évolutives : application aux données d usage du Web

Analyse des données évolutives : application aux données d usage du Web Analyse des données évolutives : application aux données d usage du Web Alzennyr Gomes da Silva To cite this version: Alzennyr Gomes da Silva. Analyse des données évolutives : application aux données d

Plus en détail

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite. Rational ClearCase or ClearCase MultiSite Version 7.0.1 Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite. Product Overview IBM Rational

Plus en détail

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing Présentation d Oracle 10g Chapitre VII Présentation d ORACLE 10g 7.1 Nouvelles fonctionnalités 7.2 Architecture d Oracle 10g 7.3 Outils annexes 7.4 Conclusions 7.1 Nouvelles fonctionnalités Gestion des

Plus en détail

Differential Synchronization

Differential Synchronization Differential Synchronization Neil Fraser Google 2009 BENA Pierrick CLEMENT Lucien DIARRA Thiemoko 2 Plan Introduction Stratégies de synchronisation Synchronisation différentielle Vue d ensemble Dual Shadow

Plus en détail

Services à la recherche: Data Management et HPC *

Services à la recherche: Data Management et HPC * Services à la recherche: Data Management et HPC * Pierre-Yves Burgi et Jean-François Rossignol Division informatique (DINF) * HPC = High-Performance Computing Réunion CIF Sciences du 6.12.11 1/19 Contenu

Plus en détail

Gulliver.com by mobeo 1

Gulliver.com by mobeo 1 Gulliver.com by mobeo 1 Sommaire Introduction A quoi sert une CRM ecommerce? Le point de vue CRM La Segmentation Les Contacts Les Visiteurs Cycle de vente Segmentation des visiteurs Ajustement Regroupements

Plus en détail

La base de données dans ArtemiS SUITE

La base de données dans ArtemiS SUITE 08/14 Vous préférez passer votre temps à analyser vos données plutôt qu à chercher un fichier? La base de données d ArtemiS SUITE vous permet d administrer et d organiser confortablement vos données et

Plus en détail

Service On Line : Gestion des Incidents

Service On Line : Gestion des Incidents Service On Line : Gestion des Incidents Guide de l utilisateur VCSTIMELESS Support Client Octobre 07 Préface Le document SoL Guide de l utilisateur explique comment utiliser l application SoL implémentée

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Documentation RBS Change E-Commerce Core

Documentation RBS Change E-Commerce Core Documentation RBS Change E-Commerce Core 10 septembre 2010 2 Table des matières 1 Introduction à RBS Change 7 1.1 Concepts généraux................................... 7 1.1.1 Qu est-ce qu un module RBS

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Big Data -Comment exploiter les données et les transformer en prise de décisions? IBM Global Industry Solution Center Nice-Paris Big Data -Comment exploiter les données et les transformer en prise de décisions? Apollonie Sbragia Architecte Senior & Responsable Centre D Excellence Assurance

Plus en détail

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz

Plus en détail

Informatique. epims : un LIMS pour la gestion des données de spectrométrie de masse TECHNOLOGIE APPLIQUÉE

Informatique. epims : un LIMS pour la gestion des données de spectrométrie de masse TECHNOLOGIE APPLIQUÉE Véronique DUPIERRIS 1, Damien BARTHE 2, Christophe BRULEY 2 epims : un LIMS pour la gestion des données de spectrométrie de masse Informatique RÉSUMÉ La protéomique constitue aujourd hui un outil de choix

Plus en détail

I>~I.J 4j1.bJ1UlJ ~..;W:i 1U

I>~I.J 4j1.bJ1UlJ ~..;W:i 1U ~I ~~I ~ ~WI~I ~WI ~~'~.M ~ o~wj' js'~' ~ ~JA1ol..;l.:w I>~I.J 4j1.bJ1UlJ ~..;W:i 1U Exercice 1: Le modele TCP/IP est traditionnellement considere comme une pile de 5 couches. Pour chaque couche, expliquer

Plus en détail

INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE

INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE BUSINESS INTELLIGENCE : GOALS AND RESULTS OF A PILOT EXPERIMENT INVOLVING SEVEN SMEs FROM BOURGOGNE Ludovic DENOYELLE,

Plus en détail

Réseau - Sécurité - Métrologie - Data Center. Le leader du marché allemand des UTM débarque en France avec des arguments forts!

Réseau - Sécurité - Métrologie - Data Center. Le leader du marché allemand des UTM débarque en France avec des arguments forts! Réseau - Sécurité - Métrologie - Data Center Energy News Le coin des technos : Sophos UTM 1er trimestre 2013 Le leader du marché allemand des UTM débarque en France avec des arguments forts! Vous trouverez

Plus en détail

L hypertexte, le multimédia, c est quoi?

L hypertexte, le multimédia, c est quoi? L hypertexte, le multimédia, c est quoi? Hervé Platteaux Centre NTE et Département de pédagogie Université de Fribourg Cours de pédagogie - Second cycle Session du 29 octobre 2001 Selon vous, l hypertexte

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail