Web Mining. YOUSSOUF Kamal LACHAAL Rafik. [Tapez le résumé du document ici. Il s agit généralement d une courte synthèse du document.

Dimension: px
Commencer à balayer dès la page:

Download "Web Mining. YOUSSOUF Kamal LACHAAL Rafik. [Tapez le résumé du document ici. Il s agit généralement d une courte synthèse du document."

Transcription

1 Web Mining YOUSSOUF Kamal LACHAAL Rafik [Tapez le résumé du document ici. Il s agit généralement d une courte synthèse du document.] M1 - M A S S D é p a r t e m e n t d e Mat h é m a t i q u e s

2 1

3 Remercîments : Nous tenons dans un premier temps à remercier Mr Lionel Cucala, professeur à l université Montpellier 2, d avoir accepté d être l encadrant de notre travail et de nous avoir accordé sa confiance. Nous remercions également Mr Lin Yuan, professeur de TD Système de gestion de Base de données, pour son apport informatique Enfin, nous remercions Mr Kamel Boughaleb, propriétaire du site Top Départ, de nous avoir fourni les données qui ont servi à notre étude. 2

4 TABLE DES MATIERES I. Introduction 5 II. Web mining 6 Nos données 9 III. Présentation du fichier log 11 IV. Structuration et Nettoyage des données 13 Qu y a-t-il à nettoyer dans les données? 13 Méthodes de mise en forme 14 Mise en œuvre du nettoyage 15 V. Détermination des sessions et des visites 17 Identifications des sessions d utilisateurs 17 Identification des visites 19 VI. statistiques générales du site 22 VII. Matrice d acces et d hyperliens 27 VIII. Analyse en composante principale sur les utilisateurs du site 30 Première ACP sur notre jeu de données : 31 ACP : individus en supplémentaire 33 Contribution 35 Interpretation des axes 37 Qualité de représentation 39 IX. Classification Hiérarchique sur Composantes Principales 40 X. Conclusion 44 XI. Bibliographie 45 XII. Annexes 46 Prétraitement des données : 46 Identification des sessions et des visites 48 Statistiques générales 51 3

5 4

6 I. INTRODUCTION En seulement quelques années le Web est devenu la principale source d information. En janvier 2012, on estimait à 550 millions le nombre de sites web. Ces derniers génèrent une activité importante avec plus de 2.2 milliards d internautes en Ces milliards de clics engendrent d immenses masses de données, enregistrées dans un fichier log, qui peuvent nous donner accès à des informations sur le comportement des internautes bien souvent plébiscitées par les webmaster, voulant toujours améliorer la présentation de leurs sites. Pour l exploitation de ces grandes masses de données, une nouvelle méthode est apparue sous le nom de «data mining». Elle constitue l ensemble des outils de fouille de données permettant d extraire des connaissances. La branche du data mining appliquée aux données web porte le nom de «Web Mining», dont l un des axes, qui va nous intéresser, est le «Web Usage Mining» qui porte sur l étude de l usage du web. Nous allons développer dans ce mémoire le processus du web usage mining. Nous verrons à partir d un fichier LOG contenant des données réelles, provenant du site web comment nous pouvons les modéliser afin d en extraire l information utile. Dans un premier temps nous allons présenter le web mining. Ensuite, nous nous intéresserons de près à la structure et au prétraitement du fichier Log. Enfin, nous verrons comment identifier les différentes sessions et visites des internautes. 5

7 II. WEB MINING Le «web mining» est une application du «data mining» qui a pris son essor vers le début des années 2000 avec la révolution de l internet et de l informatique en général. La fouille du web, le terme français, représente l ensemble des techniques appliquées aux données issues du web sur la navigation des visiteurs des sites internet. L objectif de ces techniques est d analyser les informations et les connaissances que contient ce type de données afin de comprendre le comportement des internautes. L intérêt du web mining : 1. Les sites web doivent être en constante amélioration afin d optimiser leur niveau de fréquentation. L étude du comportement des utilisateurs et de leur consultation permet d augmenter l impact des pages et des bannières publicitaires. 2. L accès par identification d un site web permet à l administrateur du site d avoir des informations précises sur l utilisateur afin de proposer un contenu personnalisé. Selon l étude conduite, nous distinguons trois catégories de procédés : Web structure mining : cette méthode est utilisée pour analyser la structure, l architecture et les liens entre plusieurs sites web. Web content mining : Il s agit d une technique d analyse de contenu des sites web. Web usage mining : Pour analyser l usage des pages web. C est sur cette dernière branche du «web mining» que nous allons nous focaliser. Le «web usage mining» est l'application du processus d'extraction des connaissances à partir de bases de Données (ECD) aux données web. Cette technique se base sur les clics effectués par l internaute lors de sa visite sur le site afin d analyser le déplacement des internautes sur les différentes pages d un site web. La procédure d analyse du «web usage mining» se décompose en différentes étapes : le prétraitement des données, l extraction des liens entre pages et l interprétation. Ces étapes sont décrites dans les sections suivantes. FIGURE 1 PROCESSUS DU WEB USAGE MINING 6

8 Les outils statistiques appropriés à l analyse des données web sont ceux du data mining. Qu est-ce que le data mining? Le data mining constitue un ensemble de procédés et outils issus du domaine statistique ou informatique visant à obtenir de l information, jusqu'ici inconnue, à partir d un important volume de données. Il s agit d une technique de «fouilles de données», le terme en français, permettant de détecter d éventuelles associations et tendances. Les techniques de data mining : Les principales techniques de data mining, tout comme l analyse de données, se regroupent en deux familles : Les techniques descriptives : elles permettent d analyser et trouver une interprétation d un ensemble de données Les techniques prédictives : ces techniques utilisent les données disponibles afin de donner un modèle prédictif entre une variable à prédire et des variables prédictives. Il s agit de trouver un modèle qui permettrait de faire des prévisions à partir des données initiales. 7

9 Récapitulatif des méthodes : Technique Famille Sous-famille Algorithme Analyse factorielle Analyse en composantes principales Analyse factorielle des correspondances Analyse des correspondances Modèles géométriques multiples Analyse typologique Méthodes de partitionnement : Centres mobiles K-means Modèles combinatoires Modèles à base de règles logiques Modèles à base de règles logiques Modèles à base de fonctions mathématiques Classifications par agrégation des similarités. Détection de liens Recherche d associations Recherche de séquences similaires Arbres de décision Modèles paramétriques ou semi-paramétriques Régression linéaire ANOVA ANCOVA MANCOVA Modèle linéaire général Régression logistique Prédiction sans modèle Analyse probabiliste k-plus proches voisins (K-NN) 8

10 NOS DONNEES Dans cette étude de cas, nous traitons un jeu de données qui enregistre l historique de navigation du site «top départ», Ce site est une sorte de guide de voyage en ligne qui propose à ses visiteurs, souhaitant voyager, de nombreuses informations pouvant leur être utile. La figure ci-dessous présente un aperçu de la page d accueil du site en question. Figure 1 Sur la figure 2 nous pouvons voir un exemple d information susceptible d intéresser les visiteurs du site voulant voyager en France. Ils peuvent avoir des informations telles que les sites touristiques et les monuments à visiter ou encore des suggestions d activité (randonnée, escalade etc.). 9

11 Figure 2 Les données étudiées concernent l historique d accès au site «top départ», enregistré dans un fichier log contenu sur le serveur du site web, la journée du 1er février 2013 entre 00:00:00 jusqu à 23 :59 :59. Nous présentons dans la section suivante le type de fichier log étudié. Nous avons décidé de traiter plusieurs fichiers log, contenant chacun d eux les requêtes pour une plage d une heure. A l aide du logiciel libre concat 1.4 fr (cf bibliographie 4) nous avons pu concaténer 24 fichiers constituant ainsi les requêtes pour la journée du 1 er Février Nous avons donc un fichier contenant requêtes. 10

12 III. PRESENTATION DU FICHIER LOG Le fichier journal, ou encore le fichier log, est un fichier contenu sur le serveur d un site web qui enregistre toutes les requêtes exécutées et les demandes opérées par le serveur. Chaque fois qu un utilisateur effectue une requête au serveur, une ligne est inscrite dans le fichier log. Les informations enregistrées peuvent être différentes suivant le format du fichier log. En effet, il existe différentes manières d extraire les données concernant les utilisateurs d un site. Les formats les plus utilisés sont «Common log file format (CLF)» et «Extended common logfile format (ECLF)». Le site «top départ» a utilisé un fichier log en format ECLF. Ci-dessous, une illustration d une ligne correspondant à une requête effectuée par un utilisateur [01/Feb/2013:00:59: ] GET /guide-voyage/maroc/photosdiaporama/vue-satellite/vue-satellite-0.html HTTP/ depart.com/guide-voyage/maroc/photos-diaporama/vue-satellite/vue-satellite- 0.html "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_4; fr-fr) AppleWebKit/ (KHTML, like Gecko) WebClip/ Safari/ " : l adresse de protocole internet, IP, de la machine. - - : Le trait d union correspond à une information manquante. Ici il s agit du login et du mot de passe de l internaute dans le cas d un accès par mot de passe. [01/Feb/2013:00:59: ]: La date et l heure exacte de la requête GET : méthode de requête utilisée. Il en existe d autres : HEAD, POST etc. /guide-voyage/maroc/photos-diaporama/vue-satellite/vue-satellite-0.html : URL de la page demandée. HTTP/1.1 : protocole utilisé 200 : Correspond au code de statut que le serveur retourne à l'internaute lorsque celui ci effectue une requête. Il nous informe sur la réussite ou non de celle-ci. Si la réponse est positive le code commence par 2. Lorsqu il s agit d une redirection le code retourné commence par 3, et s il y a une erreur, alors le code commence par 4 (par exemple erreur 404 : l url demandé n existe pas) : Ce nombre représente la taille en octet du fichier transféré à l internaute. 0.html : la page d origine où la requête a été lancée. Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_4; fr-fr) AppleWebKit/ (KHTML, like Gecko) WebClip/ Safari/ ) : l user agent indique le navigateur, le système d exploitation : 11

13 L'exemple ci-dessus, indique une requête satisfaite, GET/guide-voyage/maroc/photosdiaporama/vue-satellite/vue-satellite-0.html HTTP/1.1, effectuée par une machine ayant pour adresse IP le 1 er février à minuit 59. Pour résumer, le format ECLF contient les informations suivantes : IP LOGIN DATE ET HEURE TYPE DE REQUÊTE URL STATUT TAILLE REFERER USER AGENT Les données, recueillies par le serveur et enregistrées dans le fichier log, ne sont pas toutes exploitables. Une étape fastidieuse, du fait du nombre important de lignes, et primordiale de nettoyage est nécessaire avant de pouvoir porter une quelconque analyse statistique. Nous allons voir dans la section suivante la procédure de prétraitement des données. 12

14 IV. STRUCTURATION ET NETTOYAGE DES DONNEES QU Y A-T-IL A NETTOYER DANS LES DONNEES? Comme nous l avons dit précédemment, pour une page consultée, il y a bien souvent plus d une requête enregistrée sur le fichier journal. Ceci est principalement dû au fait que les pages web contiennent des liens vers d autres éléments stockés eux aussi sur le serveur. Par exemple, lorsqu un internaute demande une page contenant des images ou autres multimédias, cela revient à faire la requête de cette même page, mais aussi une requête pour chacun des éléments contenus dans la page. On comprendra donc que parmi l ensemble de ces requêtes, une seule reflète la demande réelle du visiteur. Toutes les requêtes correspondant à des images, fichiers multimédias, les scripts java doivent être supprimés de la table de données. On les identifiera principalement par leur extension. Parmi les requêtes effectuées, nous devons aussi différencier celles faites par des internautes et celles faites par les robots web. Ceux-ci scrutent en permanence le contenu du web afin de référencer les différentes pages des sites web. Ils sont majoritairement employés par des moteurs de recherche. On les identifie par leur adresse IP et leur User Agent. Nous avons pu constituer une liste de 4420 adresses IP et une autre de 458 Users Agents (cf bibliographie 6, 7, 8). On peut aussi identifier ces robots en regardant les requêtes effectuées au fichier «\robot.txt». Celui-ci est un fichier texte utilisé par les webmasters qui contient des instructions à destination des robots afin de leur faciliter leur travail de référencement. Les robots commencent donc en général l exploration d un site web à la recherche de celui-ci. On peut donc lister les adresses IP correspondant à ces robots ayant fait la requête et les supprimer. Une dernière manière d identifier les robots est de vérifier la vitesse d enchainement des requêtes pour une même adresse IP. Si pour une même adresse IP, nous avons une suite de requêtes espacées de seulement quelques secondes, nous avons donc affaire à un robot. Néanmoins nous n utiliserons pas cette technique car trop compliquée à mettre en œuvre et les identifications expliquées plus haut sont considérées comme suffisantes. Nous décidons également de garder uniquement les requêtes dont le code retour est compris entre 200 et 399 inclus. Elles correspondent comme expliqué précédemment aux requêtes au moins partiellement satisfaites ou ayant donné lieu à une redirection. Nous supprimons également tous les types de requêtes différents de «GET», car ils n ont pas donné lieu à un chargement de page à partir du serveur. 13

15 METHODES DE MISE EN FORME Avant de pouvoir nettoyer les données, il faut opérer une mise en forme du tableau. C'est-à-dire : Supprimer tous les symboles inutiles comme les crochets et les deux points apparaissant dans la variable date/heure. Réécrire l heure sous forme de trois variables quantitatives (h, min, sec) et ajouter une quatrième variable contenant la somme de ces trois variables sous forme de minutes. Supprimer les variables inutiles qui ne nous apportent pas d informations pertinentes telles que la taille des fichiers, le protocole utilisé ainsi que la date car le fichier traité correspond à une même journée. Supprimer également les variables de login et mot de passe, n étant pas utilisées dans le site. L une des méthodes pour opérer ce formatage, est d utiliser le langage java qui est un langage de programmation orienté objet. Avec ce langage, nous pouvons créer un programme traitant le fichier log au format.txt et lui signifier de récupérer les éléments qui nous intéressent ligne par ligne puis de les ranger dans un nouveau tableau. Ceci peut être fait en utilisant des fonctions sur des chaines de caractères telles que : StringBuffer delete(int start, int end) : enlève tous les caractères compris entre start et end. char charat(int i) : Retourne le caractère à l indice spécifié en paramètre. String substring(int i) : Sous-chaîne depuis i jusqu à la fin. Néanmoins, la méthode pour laquelle nous avons opté est l utilisation de Microsoft Excel. C est un logiciel dont nous avons déjà la maitrise. En ouvrant un fichier texte nous pouvons spécifier les symboles non désirés comme étant des séparateurs. Ils sont ainsi remplacés par des tabulations. Nous pouvons manipuler et supprimer les colonnes à notre guise ainsi que créer de nouvelles variables. 14

16 MISE EN ŒUVRE DU NETTOYAGE Pour nettoyer les données, l approche choisie est le langage SQL. Celui-ci est un langage de requêtes qui peut être utilisé pour effectuer des recherches, des extractions, des tris et mises en forme de données. Oracle Database, qui est un système de gestion de bases de données, est théoriquement adapté pour cela. Il dispose d un outil de chargement de données, «SQL Loader» optimisé pour le chargement de gros fichiers. Celui prend en charge les fichiers txt et csv. Il s utilise en créant un fichier control au format clt, où l on spécifie le fichier à charger, les types de variables et autres paramètres. Une fois ce fichier.clt créé, il ne reste plus qu à utiliser la commande «sqlldr» dans l invite de commandes en précisant l emplacement du fichier, le compte et mot de passe. Après plusieurs tentatives, nous avons renoncé à l utiliser. En effet, nous avons rencontré des difficultés pour le chargement des données surtout pour les URL, dues au fait que celles-ci pouvaient contenir des symboles spéciaux (?, =, %, &). Ceci est peut être dû au fait que le chargement se fait à partir de l invite de commandes et que les caractères spéciaux ne sont pas lus correctement sur celui-ci. Nous nous sommes donc reportés sur SAS 9.3. C est un logiciel avec lequel nous avons déjà travaillé en cours de modèles linéaires généraux. SAS 9.3 intègre la procédure «proc sql» qui nous permet d utiliser des requêtes de type SQL sur les tableaux de données. Il intègre aussi la commande «proc import» qui nous permet d importer des données directement à partir d un fichier Excel format «xlsx» en ayant au préalable spécifié les types de variables dans le fichier Excel. Nous avons donc effectué trois chargements : les données du site web, la liste des IP robots et la liste des Users Agents. Nous créons un quatrième tableau à partir des données listant les adresses IP ayant fait la requête à «/robots.txt». Ce dernier aura listé 1295 adresses IP de robots. Nous opérons un premier nettoyage comme expliqué dans la partie précédente en utilisant la commande «delete» de la «proc sql» % des requêtes sont supprimées (cf annexe 1 à 5). Nous décidons d afficher le nombre d URL différentes ainsi que de les lister afin d avoir une vue d ensemble. Notre liste contient URL différentes. En parcourant la liste, on peut voir que bon nombre de fichiers images et multimédias subsistent, leurs extensions ne se trouvant pas à la fin de l URL, ils n ont pas été pris en compte lors de la suppression. Néanmoins, ils sont tous localisés dans un même dossier «/Templates» se trouvant à la racine. Après recherche, nous avons découvert que celui-ci est un dossier de mise de forme couramment utilisé dans le monde du web pour stocker des fichiers images et multimédias souvent créé automatiquement. Nous remarquons également, en consultant la liste, la présence d url très longues contenant le mot «pub». Celles-ci ne sont en fait que des publicités envoyées automatiquement par le site non désiré par l internaute et ne reflétant pas son comportement. Nous trouvons aussi la présence d autres URL commençant par ou contenant «application.php». Ce sont des applications liées à d autres pages destinées à rendre le site dynamique et interactif. Ces requêtes sont donc générées automatiquement lorsque les internautes consultent certaines pages. Nous avons aussi découvert deux autres dossiers «/archive» et «/captcha» contenant des fichiers multimédias et images se trouvant eux aussi à la racine, ainsi que des fichiers avec des extensions qui nous sont inconnues (.rss,.swf). 15

17 Toutes ces URL sont spécifiques au site « Nous procédons donc à un second nettoyage en effaçant les URL contenant : «Templates» «Pub» «application.php» «.rss», «.swf» «captcha» (cf annexe 6 et 7) Nous totalisons maintenant 97.16% de requêtes effacées et URL différentes pour le site. TABLEAU 1 : STATISTIQUE DU NETTOYAGE Libellé Nombre de requêtes Pourcentage de requêtes Total de requêtes ,00% Requêtes par IP ayant consulté /robots.txt ,70% Requêtes par IP robots listé 19 > 0,01% Requêtes par IP Users Agents listé ,49% Requêtes non satisfaites ,22% Requêtes aux images et fichiers multimédias ,66% Requêtes dont la méthode est différente de GET ,21% Total I ,28% Requêtes dossier /Templates ,04% Pub ,42% Requêtes «application.php» ,51% Requêtes dossier /archive 490 0,05% Requêtes autres extensions ,70% Requêtes /captcha ,15% Total II ,16% Requêtes conservées % 16

18 V. DETERMINATION DES SESSIONS ET DES VISITES La suite de notre analyse nécessite l identification des utilisateurs et de leurs différentes visites. IDENTIFICATIONS DES SESSIONS D UTILISATEURS Sessions d utilisateurs: Une session d utilisations est définie comme étant l ensemble des pages consultées par un même utilisateur. Celle-ci n est pas évidente à identifier en raison des adresses IP qui ne sont pas toujours fixes sur un même ordinateur, du lieu de connexions (bibliothèque, connexion wifi libre,...) ou utilisation d un serveur proxy qui fera les requêtes à la place de plusieurs utilisateurs. Il existe trois méthodes pour identifier les utilisateurs : Identification des utilisateurs par leur login et mot de passe Identification des utilisateurs par l utilisation de cookies (fichier d identification écrit dans la mémoire cache du navigateur), elle nécessite l acceptation de l utilisateur. Identification par le couple adresse IP et User Agent. La première méthode n est pas applicable à nos données car le champ de notre fichier log réservé au login et mot de passe n est pas rempli. Nous ne pouvons pas non plus utiliser la deuxième méthode puisque nous ne disposons pas des cookies. Cependant, nous allons recourir au couple adresse IP et User Agent pour identifier les sessions d utilisateurs. Ainsi, nous considérerons que toutes requêtes provenant d une même adresse IP et d un même User Agent correspondent à une même session. Mise en œuvre de l identification : Pour mettre en œuvre cette identification, nous avons créé un nouveau tableau reprenant l intégralité du premier, mais en y ajoutant une colonne «session» qui est la concaténation des colonnes «IP» et «UsersAgents». Nous obtenons dans cette colonne une chaine de caractères pouvant servir d identifiant pour les sessions. Code SAS utilisé pour créer la nouvelle variable : proc sql; create table donnees2 as select ip '' usersagents as session, * from donnees; select count(distinct session) from donnees2; quit; Ceci étant fait, nous avons utilisé la «proc sort» pour réorganiser le tableau d abord selon la variable session nouvellement créée, puis selon la variable «sectt» qui représente l heure à laquelle a été effectuée la requête convertie en secondes. C est une étape préalable à la numérotation des sessions. 17

19 En effet, pour un souci de lisibilité et surtout de compatibilité avec le logiciel R pour la suite, nous avons décidé d attribuer un numéro pour chacune des sessions. Pour ce faire, nous créons une variable compteur «cnt» à l aide de l instruction «retain». Nous faisons une mise à jour de la table en incrémentant la variable «cnt» à chaque nouvelle chaîne de caractères de la variable «session». Code SAS : data donnees2; retain cnt 0; set donnees2; by session ; if first.session then cnt=cnt+1; 18

20 IDENTIFICATION DES VISITES Définition d une visite : Les sessions étant définies, nous allons maintenant identifier les visites effectuées à l intérieur de chacune des sessions. D après les critères empiriques de Kimball, une visite est un ensemble de requêtes appartenant à une même session et n étant pas espacées les unes des autres de plus de 30 minutes. Mise en œuvre de l identification Nous devons donc, au préalable, déterminer la durée de consultation des pages. Nous considérons que cette durée est le temps séparant deux requêtes qui se suivent. Si cette durée est supérieure à 30 minutes, alors la requête suivante est considérée comme appartenant à une nouvelle visite. Pour déterminer cette durée, nous allons utiliser les variables «cnt» et «sectt». Nous présentons ci-dessous deux codes utilisables pour les logiciels SAS et R. Code SAS N=nrow(mat); bool=repeat(0,n,1); durees=repeat(0,n,1); visites=repeat(0,n,1); Code R N=25339 duree=rep(0,n) bool=rep(0,n) visites=rep(0,n) do i=1 to N-1; if mat[i,1]=mat[i+1,1] then do; durees[i]=mat[i+1,2]-mat[i,2]; bool[i]=1; end; else bool[i]=0; end; for (i in 1:N-1){ if (tab[i,1]==tab[i+1,1]){ duree[i]=(tab[i+1,2]-tab[i,2]) bool[i]=1 } else{ bool[i]=0 } } Cet algorithme calcule la durée i en fonction du temps écoulé entre la requête i et i+1 à partir de la variable «sectt». Lorsque l algorithme arrive en fin de session, aucune durée n est calculée mais elle sera estimée par la suite. Nous avons inclus une variable «bool» qui prend la valeur 0 si la requête est la dernière de la session sinon elle prend la valeur 1. Cette variable sert d indicateur de fin de session. Sous SAS il faut au préalable charger les colonnes de la table dans une matrice sur la quel nous allons travailler. proc iml; use donnees2; idvar={'cnt' 'sectt'}; read all var idvar into mat; close; 19

21 Nous sommes, à présent, en mesure de déterminer les visites. visites[1]=1; do i=1 to N-1; if durees[i]>1800 bool[i]=0 then visites[i+1]=visites[i]+1; else visites[i+1]=visites[i]; end; quit; visites[1]=1 for(i in 1:N){ if(duree[i]>1800 bool[i]==0) visites[i+1]=visites[i]+1 else visites[i+1]=visites[i] } Nous initialisons la première valeur du vecteur «visite» à 1. Nous l incrémentons de 1 à chaque fois que la durée est supérieure à 1800 secondes (30 minutes) ou que la i ème valeur du vecteur «bool» est égale à 0. Si aucune de ces deux conditions n est vérifiée alors la i ème +1 composante du vecteur visite prend la même valeur que la composante i. Une fois les variables durée et visite obtenues, nous pouvons estimer le temps de consultation de la dernière page de chaque visite. Elle sera déterminée par la moyenne de durées des pages constituant la même visite. Nous revenons sous SAS avec un tableau incluant les nouvelles colonnes «visites», «durees» et «bool». Nous mettons d abord à jour la variable «bool» pour qu elle nous indique les fins de visites et non plus les fins de sessions. proc sql; update donnees2 set bool=0 where durees>1800; quit; Nous créons une nouvelle colonne dans laquelle se trouve la moyenne des durées par visite ne prenant en compte que les requêtes dont la variable «bool» est égale à 1. proc sql; drop table donnees3; create table donnees3 as select *, avg(durees) as moyenne from donnees2 group by visites, bool; quit; Nous réorganisons les données d abord en fonction de la variable session, puis de la variable visite et enfin en fonction de la variable heure. proc sort data=donnees3; by sessions visites sectt; Puis avec Excel nous remplaçons les durées de fin de visites par les moyennes avec la formule DUREE[i] = SI (BOOL[i] = 1; DUREE[i]; SI (VISITES[i] = VISITES[i-1] ; MOYENNE[i]; 0)) 20

22 Remarque : Certaines visites peuvent totaliser plus de 100 requêtes. Elles peuvent correspondre à des robots. Nous en avons détecté 14, nous décidons de les supprimer (cf annexe 25) Certaines visites ne sont constituées que d une seule requête, par conséquent la durée est égale à zéro et donc la durée moyenne de la visite est aussi égale à zéro. Leur durée reste donc indéterminée. Nous prenons l exemple de la visite n 1. Elle débute à 7h12 et prend fin à 7h41. Elle correspond au visiteur ayant pour adresse IP « » et pour user agent «Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)». Nous pouvons lire dans l user agent qu il est sous Windows 7(Windows NT 6.1) et que son navigateur est Internet Explorer 9.0 (MSIE 9.0). Il est arrivé sur le site par le moteur de recherche «Bing» en tapant les mots clefs «part+en+thailande+guide+voyage». TABLEAU 2: VISITE N 1 paged pagep h m s /guidevoyage/thailande/geographie. html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/surplace.html /guide-voyage/thailande/surplace.html /guide-voyage/thailande/surplace.html /guide-voyage/thailande/surplace.html /guide-voyage/thailande/surplace.html ge&src=ie9tr /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/que-voir.html /guide-voyage/thailande/que-voir.html /guide-voyage/thailande/que-voir.html /guide-voyage/thailande/que-voir.html /guide-voyage/thailande/que-voir.html

23 VI. STATISTIQUES GENERALES DU SITE Le tableau suivant nous donne un récapitulatif des statistiques générales du site. TABLEAU 3 : STATISTIQUES GENERALES Nombre de sessions 5469 Nombre de visites 7071 Nombre moyen de visites par session 1 à 2 Nombre moyen de pages consultées par visites 4 durée moyenne d'une visite (seconde) 215 Nous créons maintenant un tableau listant les différentes URL restantes et incluant les nouvelles variables associées à chaque URL donnant le nombre de fois où celle-ci a été demandée, son pourcentage par rapport au nombre de requêtes total et la durée moyenne de consultations. Nous obtenons ainsi nos premières statistiques sur la fréquentation des pages durant la journée du 1 er février TABLEAU 4 : LES 15 PAGES LES PLUS FREQUENTEES Obs. Nombre de consultation s Part de fréquentation (%) durée moyenne (s) / URL /forum-voyage/ /forum.html /livre_or.html /en/guestbook.html /recits.html /guide-voyage/dossiers/grands_dossiers/merde-glace-en-france-103.html /guide-voyage/guatemala/ /preparer-voyage/le-triangle-culturel-du-srilanka-billets-et-visites-343.html /guide-voyage/sante/senegal/ /forum-voyage/europe/hertz-location-devoiture-toulon html /forum-voyage/europe/hertz-location-devoitures html /forum-voyage/europe/location-voituremarseille html /projet/ /guide-voyage/sante/togo/ Ces 15 pages représentent 28,19% de la fréquentation. 22

24 Pour l ensemble des graphiques qui suivent, nous avons utilisées la «proc gchart» ou la «proc gplot». 23

25 Sur le graphique ci-dessus, nous pouvons voir que les pages ayant la plus longue durée de consultation sont parmi les moins visitées. Nous voyons également 5 points se dégager. En effet, ce sont des pages qui souvent ont été consultées mais très brièvement. Cela reflète un comportement d internautes n ayant pas trouvés ce qu ils recherchaient sur la page. 24

26 Le graphique suivant nous donne la part de fréquentation pour chaque horaire. Nous pouvons voir que le pic de fréquentation est atteint à 16h avec 1371 page consultées, soit 6.55% de la fréquentation de la journée. Nous voyons également que plus de la moitié de la fréquentation est faite avant 15h. 25

27 Pour tracer le diagramme qui suit nous créons une variable booléenne «retour» qui prend la valeur «Visite unique» si elle ne totalise qu une seule visite sinon elle prend la valeur «Retour sur site». Puis nous utilisons la «proc gchart» sur cette variable. data temp3; set temp3; if nbr=1 then retour='visite unique' ; else retour='retour sur site'; 26

BIRT (Business Intelligence and Reporting Tools)

BIRT (Business Intelligence and Reporting Tools) BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»

Plus en détail

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Mostafa HANOUNE*, Fouzia BENABBOU* *Université Hassan II- Mohammedia, Faculté des sciences

Plus en détail

Business Intelligence

Business Intelligence avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle). 1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence

Plus en détail

Table des matières L INTEGRATION DE SAS AVEC JMP. Les échanges de données entre SAS et JMP, en mode déconnecté. Dans JMP

Table des matières L INTEGRATION DE SAS AVEC JMP. Les échanges de données entre SAS et JMP, en mode déconnecté. Dans JMP L INTEGRATION DE SAS AVEC JMP Quelles sont les techniques possibles pour intégrer SAS avec JMP? Comment échanger des données entre SAS et JMP? Comment connecter JMP à SAS? Quels sont les apports d une

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services Nous verrons dans cet article comment exploiter simplement les données de Log de SQL Server 2008 R2 Reporting Services

Plus en détail

COMPRENDRE LES DIFFERENTS TYPES DE CONNEXION LORS DE LA

COMPRENDRE LES DIFFERENTS TYPES DE CONNEXION LORS DE LA COMPRENDRE LES DIFFERENTS TYPES DE CONNEXION LORS DE LA DEFINITION D UNE BIBLIOTHEQUE D ACCES A UNE BASE DE DONNEES Cet article s adresse aux administrateurs SAS en charge de la mise à disposition des

Plus en détail

Langage SQL : créer et interroger une base

Langage SQL : créer et interroger une base Langage SQL : créer et interroger une base Dans ce chapitre, nous revenons sur les principales requêtes de création de table et d accès aux données. Nous verrons aussi quelques fonctions d agrégation (MAX,

Plus en détail

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement Cursus Outils & Développement Vous êtes Consultant, Chef de Projets, Directeur des Systèmes d Information, Directeur Administratif et Financier, Optez pour les «formations Produits» Nous vous proposons

Plus en détail

INTRODUCTION AU CMS MODX

INTRODUCTION AU CMS MODX INTRODUCTION AU CMS MODX Introduction 1. Créer 2. Organiser 3. Personnaliser UNE PETITE INTRODUCTION QUEST-CE QU UN CMS? CMS est l acronyme de Content Management System. C est outil qui vous permet de

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

Gestion de stock pour un magasin

Gestion de stock pour un magasin Département d Informatique Université de Fribourg, Suisse http://diuf.unifr.ch Gestion de stock pour un magasin Stock online utilise ASP/MS-Access DO Thi Tra My No étudiant : 05-333-750 Travail de séminaire

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Création et Gestion des tables

Création et Gestion des tables Création et Gestion des tables Version 1.0 Z Grégory CASANOVA 2 Sommaire 1 Introduction... 3 2 Pré-requis... 4 3 Les tables... 5 3.1 Les types de données... 5 3.1.1 Les types de données Sql Server... 5

Plus en détail

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant

Plus en détail

Devoir Data WareHouse

Devoir Data WareHouse Université Paris XIII Institut Galilée Master 2-EID BENSI Ahmed CHARIFOU Evelyne Devoir Data WareHouse Optimisation, Transformation et Mise à jour utilisées par un ETL Mr R. NEFOUSSI Année 2007-2008 FICHE

Plus en détail

Formation. Module WEB 4.1. Support de cours

Formation. Module WEB 4.1. Support de cours Formation Module WEB 4.1 Support de cours Rédacteur Date de rédaction F.CHEA 08/02/2012 Les informations contenues dans ce document pourront faire l'objet de modifications sans préavis Sauf mention contraire,

Plus en détail

INITIATION AU LOGICIEL SAS

INITIATION AU LOGICIEL SAS INITIATION AU LOGICIEL SAS (version 9.1.3 sous Windows) Hélène HAMISULTANE Bibliographie : Initiation au logiciel SAS(9) pour Windows, Coqué N. (juin 2006). www.agroparistech.fr/img/pdf/polysas.pdf SAS

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services

Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services Ce Whitepaper décrit la méthodologie de développement d un rapport personnalisé au format SQL Server Reporting Service (SSRS) appliqué à System Center Operations Manager (SCOM) Whitepaper Méthodologie

Plus en détail

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS Depuis SAS 9.2 TS2M3, SAS propose un nouveau langage de programmation permettant de créer et gérer des tables SAS : le DS2 («Data Step 2»). Ces nouveautés

Plus en détail

Encryptions, compression et partitionnement des données

Encryptions, compression et partitionnement des données Encryptions, compression et partitionnement des données Version 1.0 Grégory CASANOVA 2 Compression, encryption et partitionnement des données Sommaire 1 Introduction... 3 2 Encryption transparente des

Plus en détail

INSTALLATION DE L APPLICATION DU CONTEXTE ITASTE

INSTALLATION DE L APPLICATION DU CONTEXTE ITASTE INSTALLATION DE L APPLICATION DU CONTEXTE ITASTE Le responsable de la société Itaste utilise une application installée sur son poste : elle est programmée en VBA sous Microsoft Access et pourvue d une

Plus en détail

Avertissement. La Gestion Electronique de Documents

Avertissement. La Gestion Electronique de Documents Sommaire Les plus de GEDExpert... p 1.3 Mise en place Fichiers de bases... p 1.4 Mise en place Plan de classement... p 1.8 La fiche dossier... p 1.13 L acquisition de documents... p 1.19 Les liens avec

Plus en détail

Le Langage SQL version Oracle

Le Langage SQL version Oracle Université de Manouba École Supérieure d Économie Numérique Département des Technologies des Systèmes d Information Le Langage SQL version Oracle Document version 1.1 Mohamed Anis BACH TOBJI anis.bach@isg.rnu.tn

Plus en détail

CHARTE DE GESTION DES COOKIES

CHARTE DE GESTION DES COOKIES CHARTE DE GESTION DES COOKIES 1. PREAMBULE La présente Charte de gestion des Cookies s adresse aux utilisateurs du site internet http://www.procedurescollectives.com/ (ci-après le «SITE»), à savoir, toute

Plus en détail

SQL Historique 1982 1986 1992

SQL Historique 1982 1986 1992 SQL Historique 1950-1960: gestion par simple fichier texte 1960: COBOL (début de notion de base de données) 1968: premier produit de sgbdr structuré (IBM -> IDMS) 1970-74: élaboration de l'outil d'analyse

Plus en détail

Présentation Windows Azure Hadoop Big Data - BI

Présentation Windows Azure Hadoop Big Data - BI Présentation Windows Azure Hadoop Big Data - BI Sommaire 1. Architecture Hadoop dans Windows Azure... 3 2. Requête Hive avec Hadoop dans Windows Azure... 4 3. Cas d études... 5 3.1 Vue : Administrateur...

Plus en détail

Langage SQL (1) 4 septembre 2007. IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

Langage SQL (1) 4 septembre 2007. IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes Langage SQL (1) Sébastien Limet Denys Duchier IUT Orléans 4 septembre 2007 Notions de base qu est-ce qu une base de données? SGBD différents type de bases de données quelques systèmes existants Définition

Plus en détail

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2 SQL Sommaire : COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2 COMMANDES DE MANIPULATION DE DONNEES... 2 COMMANDES DE CONTROLE TRANSACTIONNEL... 2 COMMANDES DE REQUETE DE DONNEES... 2 COMMANDES

Plus en détail

MYXTRACTION. 2009 La Business Intelligence en temps réel

MYXTRACTION. 2009 La Business Intelligence en temps réel MYXTRACTION 2009 La Business Intelligence en temps réel Administration Qui sommes nous? Administration et management des profils Connecteurs Base des données Gestion des variables et catégories de variables

Plus en détail

Tous les autres noms de produits ou appellations sont des marques déposées ou des noms commerciaux appartenant à leurs propriétaires respectifs.

Tous les autres noms de produits ou appellations sont des marques déposées ou des noms commerciaux appartenant à leurs propriétaires respectifs. Connexion à 4D Server depuis une page ASP Par Noreddine MARGOUM, Technicien Contrôle Qualité, 4D S.A. Note technique 4D-200403-08-FR Version 1 Date 1 Mars 2004 Résumé Le propos de cette note technique

Plus en détail

Historisation des données

Historisation des données Historisation des données Partie 1 : mode colonne par Frédéric Brouard, alias SQLpro MVP SQL Server Expert langage SQL, SGBDR, modélisation de données Auteur de : SQLpro http://sqlpro.developpez.com/ "SQL",

Plus en détail

Bases de données relationnelles

Bases de données relationnelles Bases de données relationnelles Système de Gestion de Bases de Données Une base de données est un ensemble de données mémorisé par un ordinateur, organisé selon un modèle et accessible à de nombreuses

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Département Génie Informatique

Département Génie Informatique Département Génie Informatique BD51 : Business Intelligence & Data Warehouse Projet Rédacteur : Christian FISCHER Automne 2011 Sujet : Développer un système décisionnel pour la gestion des ventes par magasin

Plus en détail

Configuration de GFI MailArchiver

Configuration de GFI MailArchiver Configuration de GFI MailArchiver Introduction à la configuration Après l installation de GFI MailArchiver, vous pourrez commencer la configuration de l interface Web et terminer la configuration de GFI

Plus en détail

Competence Management System (Système de Gestion de Compétences)

Competence Management System (Système de Gestion de Compétences) Dispositif :... 3 Qu est-ce qu un CMS?... 3 Quels sont les dispositifs intégrés à un CMS... 3 Comment envoyer des emails?... 3 Puis-je envoyer des emails seulement à un groupe de personnes?... 4 Comment

Plus en détail

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous : BASE BioArray Software Environment (BASE) est une base de données permettant de gérer l importante quantité de données générées par des analyses de bio-puces. BASE gère les informations biologiques, les

Plus en détail

Manuel d utilisation du site web de l ONRN

Manuel d utilisation du site web de l ONRN Manuel d utilisation du site web de l ONRN Introduction Le but premier de ce document est d expliquer comment contribuer sur le site ONRN. Le site ONRN est un site dont le contenu est géré par un outil

Plus en détail

Modélisation et Gestion des bases de données avec mysql workbench

Modélisation et Gestion des bases de données avec mysql workbench Modélisation et Gestion des bases de données avec mysql workbench par novembre 2011 Table des matières 1 Installation 3 1.1 Ecran de chargement 3 1.2 Page d accueil 3 2 Réalisation d une base de données

Plus en détail

La place de SAS dans l'informatique décisionnelle

La place de SAS dans l'informatique décisionnelle La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie

Plus en détail

Fonction Memory Viewer

Fonction Memory Viewer Mode d emploi Fonction Memory Viewer Ceci est le mode d emploi de la fonction Memory Viewer. Veuillez lire entièrement ce mode d emploi pour utiliser la fonction Memory Viewer. Tout d abord, lisez le mode

Plus en détail

RÉALISATION D UN SITE DE RENCONTRE

RÉALISATION D UN SITE DE RENCONTRE RÉALISATION D UN SITE DE RENCONTRE Par Mathieu COUPE, Charlène DOUDOU et Stéphanie RANDRIANARIMANA Sous la coordination des professeurs d ISN du lycée Aristide Briand : Jérôme CANTALOUBE, Laurent BERNARD

Plus en détail

Plateforme PAYZEN. Intégration du module de paiement pour la plateforme Magento version 1.3.x.x. Paiement en plusieurs fois. Version 1.

Plateforme PAYZEN. Intégration du module de paiement pour la plateforme Magento version 1.3.x.x. Paiement en plusieurs fois. Version 1. Plateforme PAYZEN Intégration du module de paiement pour la plateforme Magento version 1.3.x.x Paiement en plusieurs fois Version 1.4a Guide d intégration du module de paiement Multiple Magento 1/24 SUIVI,

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

SYSTEME DE GESTION DES ENERGIES EWTS EMBEDDED WIRELESS TELEMETRY SYSTEM

SYSTEME DE GESTION DES ENERGIES EWTS EMBEDDED WIRELESS TELEMETRY SYSTEM SYSTEME DE GESTION DES ENERGIES EWTS EMBEDDED WIRELESS TELEMETRY SYSTEM Copyright TECH 2012 Technext - 8, avenue Saint Jean - 06400 CANNES Société - TECHNEXT France - Tel : (+ 33) 6 09 87 62 92 - Fax :

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Business Intelligence avec Excel, Power BI et Office 365

Business Intelligence avec Excel, Power BI et Office 365 Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10

Plus en détail

Introduction aux concepts d ez Publish

Introduction aux concepts d ez Publish Introduction aux concepts d ez Publish Tutoriel rédigé par Bergfrid Skaara. Traduit de l Anglais par Benjamin Lemoine Mercredi 30 Janvier 2008 Sommaire Concepts d ez Publish... 3 Système de Gestion de

Plus en détail

demander pourquoi mon site n'apparaît pas sur google ou pourquoi mon site n'est pas référencé par les moteurs de recherche?

demander pourquoi mon site n'apparaît pas sur google ou pourquoi mon site n'est pas référencé par les moteurs de recherche? 50 questions essentielles à vous poser avant la mise en ligne de votre site pour ne plus vous demander pourquoi mon site n'apparaît pas sur google ou pourquoi mon site n'est pas référencé par les moteurs

Plus en détail

Les déclencheurs. Version 1.0. Grégory CASANOVA

Les déclencheurs. Version 1.0. Grégory CASANOVA Les déclencheurs Version 1.0 Grégory CASANOVA 2 Les déclencheurs [09/07/09] Sommaire 1 Introduction... 3 2 Pré-requis... 4 3 Les déclencheurs du DML... 5 3.1 Introduction... 5 3.2 Création d un déclencheur

Plus en détail

LES ACCES ODBC AVEC LE SYSTEME SAS

LES ACCES ODBC AVEC LE SYSTEME SAS LES ACCES ODBC AVEC LE SYSTEME SAS I. Présentation II. SAS/ACCESS to ODBC III. Driver ODBC SAS IV. Driver ODBC SAS Universel V. Version 8 VI. Références I. Présentation Introduction ODBC, qui signifie

Plus en détail

Le langage SQL Rappels

Le langage SQL Rappels Le langage SQL Rappels Description du thème : Présentation des principales notions nécessaires pour réaliser des requêtes SQL Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs,

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

+33 (0)4 92 21 33 79 contact@social-box.fr www.social-box.fr. Sarl ISB Altipolis2 av. Du Général Barbot 05100 Briancon - France

+33 (0)4 92 21 33 79 contact@social-box.fr www.social-box.fr. Sarl ISB Altipolis2 av. Du Général Barbot 05100 Briancon - France Sarl ISB Altipolis2 av. Du Général Barbot 05100 Briancon - France SCHÉMA FONCTIONNEL * Projection vers smartphones et tablettes de votre interface en Appli par Wifi (10 à 100 mètres autour de la borne)

Plus en détail

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES Dossier G11 - Interroger une base de données La base de données Facturation contient tout un ensemble d'informations concernant la facturation de la SAFPB (société anonyme de fabrication de produits de

Plus en détail

TP 1. Prise en main du langage Python

TP 1. Prise en main du langage Python TP. Prise en main du langage Python Cette année nous travaillerons avec le langage Python version 3. ; nous utiliserons l environnement de développement IDLE. Étape 0. Dans votre espace personnel, créer

Plus en détail

Créer le schéma relationnel d une base de données ACCESS

Créer le schéma relationnel d une base de données ACCESS Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

REQUEA. v 1.0.0 PD 20 mars 2008. Mouvements d arrivée / départ de personnels Description produit

REQUEA. v 1.0.0 PD 20 mars 2008. Mouvements d arrivée / départ de personnels Description produit v 1.0.0 PD 20 mars 2008 Mouvements d arrivée / départ de personnels Description produit Fonctionnalités L application Gestion des mouvements d arrivée / départ de Requea permet la gestion collaborative

Plus en détail

1. Qu'est-ce que SQL?... 2. 2. La maintenance des bases de données... 2. 3. Les manipulations des bases de données... 5

1. Qu'est-ce que SQL?... 2. 2. La maintenance des bases de données... 2. 3. Les manipulations des bases de données... 5 1. Qu'est-ce que SQL?... 2 2. La maintenance des bases de données... 2 2.1 La commande CREATE TABLE... 3 2.2 La commande ALTER TABLE... 4 2.3 La commande CREATE INDEX... 4 3. Les manipulations des bases

Plus en détail

INTRODUCTION A JAVA. Fichier en langage machine Exécutable

INTRODUCTION A JAVA. Fichier en langage machine Exécutable INTRODUCTION A JAVA JAVA est un langage orienté-objet pur. Il ressemble beaucoup à C++ au niveau de la syntaxe. En revanche, ces deux langages sont très différents dans leur structure (organisation du

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Mettre en place un accès sécurisé à travers Internet

Mettre en place un accès sécurisé à travers Internet Mettre en place un accès sécurisé à travers Internet Dans cette partie vous verrez comment configurer votre serveur en tant que serveur d accès distant. Dans un premier temps, les méthodes pour configurer

Plus en détail

Guide Utilisateur Transnet

Guide Utilisateur Transnet Guide Utilisateur Transnet > Sommaire 1 I Introduction 3 2 I Les premiers pas sous Transnet 4 2.1 Configuration informatique nécessaire pour accéder à Transnet 4 2.2 Initialisation de Transnet 4 3 I Téléchargement

Plus en détail

Comment utiliser FileMaker Pro avec Microsoft Office

Comment utiliser FileMaker Pro avec Microsoft Office Guide d utilisation Comment utiliser FileMaker Pro avec Microsoft Office Comment utiliser FileMaker Pro et Microsoft Office page 1 Table des matières Introduction... 3 Avant de commencer... 4 Partage de

Plus en détail

Mesurer le retour sur investissement

Mesurer le retour sur investissement Mesurer le retour sur investissement Les statistiques... 268 Tableau de bord et corrélation... 271 Google Analytics... 272 Google Webmaster Tools... 276 Google AdWords... 278 Résumé... 281 Chapitre 6 Mesurer

Plus en détail

Stocker des données sur Amazon S3

Stocker des données sur Amazon S3 4 Stocker des données sur Amazon S3 Dans ce chapitre, nous plongeons la tête la première dans Amazon S3, Simple Storage Service (service simple de stockage). Après un aperçu rapide des concepts de S3 les

Plus en détail

BES WEBDEVELOPER ACTIVITÉ RÔLE

BES WEBDEVELOPER ACTIVITÉ RÔLE BES WEBDEVELOPER ACTIVITÉ Le web developer participe aux activités concernant la conception, la réalisation, la mise à jour, la maintenance et l évolution d applications internet/intranet statiques et

Plus en détail

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.

Plus en détail

Guide d utilisation commandes des pièces de rechange Rev.1.0.3

Guide d utilisation commandes des pièces de rechange Rev.1.0.3 SECLI Ver.2.3 Guide d utilisation commandes des pièces de rechange Rev.1.0.3 Ce document est constamment actualisé: vérifiez le n de la version pour savoir s il existe d éventuelles mises à jour Futura

Plus en détail

MANUEL D INSTALLATION

MANUEL D INSTALLATION Data Processing Commission Fast Advanced Software for Table soccer - v 1.0 Logiciel de gestion de tournoi de football de table MANUEL D INSTALLATION INSTALLATION INFORMATIQUE DE LA TABLE DE MARQUE & CONFIGURATION

Plus en détail

Jérôme FESSY. IUT de Paris 5. Base de Données. Cours Introductif. Base de Données

Jérôme FESSY. IUT de Paris 5. Base de Données. Cours Introductif. Base de Données Base de Données Cours Introductif Base de Données Quelques chiffres Évolution annuelle moyenne 2004/2000 15% +20% 12% 5% 0.5% 2000 2004 L3G IA SG mono poste : Part de marché 5% 5% 10% Paradox 65% SG 15%

Plus en détail

GUIDE UTILISATEUR. KPAX Discover

GUIDE UTILISATEUR. KPAX Discover GUIDE UTILISATEUR KPAX Discover STATUT DU COPYRIGHT ET DE LA REPRODUCTION La société KPAX vous autorise à consulter le contenu de ce document sous réserve d appliquer à toutes les copies les droits d auteur

Plus en détail

CREG : http://www.creg.ac- versailles.fr/spip.php?article803

CREG : http://www.creg.ac- versailles.fr/spip.php?article803 OUTILS NUMERIQUES Édu-Sondage : concevoir une enquête en ligne Rédacteur : Olivier Mondet Bla. 1 Présentation Parmi les pépites que contient l Édu-Portail, l application Édu-Sondage est l une des plus

Plus en détail

Construction d un Site Internet Dynamique avec Joomla René-Yves Hervé, Ph.D.

Construction d un Site Internet Dynamique avec Joomla René-Yves Hervé, Ph.D. Construction d un Site Internet Dynamique avec Joomla René-Yves Hervé, Ph.D. TABLE DES MATIÈRES I. Présentation de Joomla II. III. IV. Documents disponibles Installation de Joomla 3.1) Installation sur

Plus en détail

Compétences Business Objects - 2014

Compétences Business Objects - 2014 Compétences Business Objects - 2014 «Mars-Juin 2014. Réf : Version 1 Page 1 sur 34 Sommaire CONTEXTE DE LA REMISE A NIVEAU EN AUTOFORMATION... 3 1. MODELISATION... 4 1.1 DESCRIPTION FONCTIONNEL DE L'APPLICATION

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Sommaire. Etablir une connexion avec une base de données distante sur PostGreSQL

Sommaire. Etablir une connexion avec une base de données distante sur PostGreSQL Sommaire Etablir une connexion avec une base de données distante sur PostGreSQL 1 Connexion avec le module dblink...3 1.1 Création du module dblink... 3 1.2 Exemple de Mise en oeuvre... 4 1.3 Création

Plus en détail

MEDIAplus elearning. version 6.6

MEDIAplus elearning. version 6.6 MEDIAplus elearning version 6.6 L'interface d administration MEDIAplus Sommaire 1. L'interface d administration MEDIAplus... 5 2. Principes de l administration MEDIAplus... 8 2.1. Organisations et administrateurs...

Plus en détail

8. Gestionnaire de budgets

8. Gestionnaire de budgets 8. Gestionnaire de budgets 8.1 Introduction Le Gestionnaire de budgets (Budget Workbench) permet aux utilisateurs de travailler sur les données budgétaires qu ils ont importées sur leur station de travail

Plus en détail

Cahier n o 6. Mon ordinateur. Fichiers et dossiers Sauvegarde et classement

Cahier n o 6. Mon ordinateur. Fichiers et dossiers Sauvegarde et classement Cahier n o 6 Mon ordinateur Fichiers et dossiers Sauvegarde et classement ISBN : 978-2-922881-10-3 2 Table des matières Fichiers et dossiers Sauvegarde et classement La sauvegarde 4 Enregistrer 4 De quelle

Plus en détail

Modélisation PHP Orientée Objet pour les Projets Modèle MVC (Modèle Vue Contrôleur) Mini Framework

Modélisation PHP Orientée Objet pour les Projets Modèle MVC (Modèle Vue Contrôleur) Mini Framework Modélisation PHP Orientée Objet pour les Projets Modèle MVC (Modèle Vue Contrôleur) Mini Framework L'objectif de ce document est de poser des bases de réflexion sur la modélisation d'un projet réalisé

Plus en détail

Version 6.20 Guide d Utilisation

Version 6.20 Guide d Utilisation Version 6.20 Guide d Utilisation Page 1 sur 103 SOMMAIRE I- PRESENTATION... 4 II- CONFIGURATION... 6 1) Gestion des comptes expéditeurs... 6 2) Gestion des périphériques... 8 3) Gestion des utilisateurs...

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Utiliser SQL Server 2008 R2 Reporting Services comme source de donne es pour Microsoft Excel

Utiliser SQL Server 2008 R2 Reporting Services comme source de donne es pour Microsoft Excel Utiliser SQL Server 2008 R2 Reporting Services comme source de donne es pour Microsoft Excel Excel est un des meilleurs outils de manipulation de données et parfois il est nécessaire d exploiter des données

Plus en détail

Créer et animer une boutique en ligne avec Wordpress (environnement PC et MAC)

Créer et animer une boutique en ligne avec Wordpress (environnement PC et MAC) Créer et animer une boutique en ligne avec Wordpress (environnement PC et MAC) OBJECTIFS - Créer une boutique sous wordpress et la référencer. - Mise en place du contenu, des articles Une bonne connaissance

Plus en détail

Paginer les données côté serveur, mettre en cache côté client

Paginer les données côté serveur, mettre en cache côté client Paginer les données côté serveur, mettre en cache côté client Vous voulez sélectionner des lignes dans une table, mais celle-ci comporte trop de lignes pour qu il soit réaliste de les ramener en une seule

Plus en détail

1 Introduction et installation

1 Introduction et installation TP d introduction aux bases de données 1 TP d introduction aux bases de données Le but de ce TP est d apprendre à manipuler des bases de données. Dans le cadre du programme d informatique pour tous, on

Plus en détail