Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Documents pareils

1 La visualisation des logs au CNES

Mesures DNS à l ère du Big Data : outils et défis. JCSA, 9 juillet 2015 Vincent Levigneron, Afnic

Panorama des solutions analytiques existantes

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Compte Rendu d intégration d application

CliniPACS : distribution sécurisée d'images DICOM en réseau local hospitalier

BIG DATA et DONNéES SEO

Catalogue des Formations Techniques

Devenez un véritable développeur web en 3 mois!

Programmation Web. Madalina Croitoru IUT Montpellier

Méthode de Test. Pour WIKIROUTE. Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel.

Termes de référence pour le recrutement d un Assistant pour la gestion des bases de données

1. La plate-forme LAMP

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

DEMARREZ RAPIDEMENT VOTRE EVALUATION

IBM Tivoli Compliance Insight Manager

Mise en œuvre des serveurs d application

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Distributeur des solutions ESET et 8MAN en France

Informatique & Systèmes de Communication. Stages de 12 à 16 semaines aux Etats-Unis

GUIDE PRATIQUE déplacements professionnels temporaires en France et à l étranger

THÉMATIQUES. Comprendre les frameworks productifs. Découvrir leurs usages. Synthèse

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

WordPress Référencement naturel (SEO) Optimiser. son référencement. Daniel Roch. Préface d Olivier Andrieu

REQUEA. v PD 20 mars Mouvements d arrivée / départ de personnels Description produit

Francis Mignault. ! Coauteur : Expert Oracle Application Express. ! Membre du Oracle APEX Advisory Board apex.oracle.com/vote

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement

Architecte Logiciel. Unité de formation 1 : Développer en s appuyant sur les modèles et les frameworks 7 semaines

GPC Computer Science

Petit Déjeuner Pépinière du Logiciel Libre. 25 juin 2008

BIRT (Business Intelligence and Reporting Tools)

7 villa de la citadelle Né le 13 mai Arcueil Nationalité : Française. Développeur Web JEE COMPÉTENCES

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

vsphere 5 TP2 La virtualisation avec VMware CNFETP F. GANGNEUX technologie GANGNEUX F. 17/12/2012

QU EST-CE QUE LE DECISIONNEL?

Cours en ligne Développement Java pour le web

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Présentations personnelles. filière IL

Introduction au Data-Mining

Laboratoire 4 Développement d un système intelligent

Formation en Logiciels Libres. Fiche d inscription

CATALOGUE DES STAGES 2014/2015

Offres de stages 2011/2012

Guide de mise à jour BiBOARD

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

May Lopez PETIT COUTEAU SUISSE CRÉATIF. May Lopez Petit couteau suisse créatif

webmestre : conception de sites et administration de serveurs web 42 crédits Certificat professionnel CP09

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Jimmy Clairbois. Projets réalisés dans le cadre professionnel

Les grandes facettes du développement Web Nicolas Thouvenin - Stéphane Gully

Technologies du Web. Créer et héberger un site Web. Pierre Senellart. Page 1 / 26 Licence de droits d usage

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

INFORMATIQUE & WEB. PARCOURS CERTIFICAT PROFESSIONNEL Programmation de sites Web. 1 an 7 MODULES. Code du diplôme : CP09

Guide Reseller Onbile

Créateur de sites Internet. Développeur de logiciels.

Les datas = le fuel du 21ième sicècle

Types d applications pour la persistance. Outils de développement. Base de données préexistante? 3 modèles. Variantes avec passerelles

3W Academy Programme de Formation Développeur Intégrateur web Total : 400 heures

Logiciels de référencement

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Visual Paradigm Contraintes inter-associations

THOT - Extraction de données et de schémas d un SGBD

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Menaces du Cyber Espace

Catalogue des formations Edition 2015

PROFILAGE : UN DEFI POUR LA PROTECTION DES DONNEES PERSONNELLES Me Alain GROSJEAN Bonn & Schmitt

Cursus Sage ERP X3 Outils & Développement. CURSUS Sage ERP X3 Outils & Développement ADVANCED. Outils avancés. 2 jours X3A-ADM. Développement 1 &2

Installation de SCCM 2012 (v2)

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Bases de données documentaires et distribuées Cours NFE04

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

LES SOLUTIONS OPEN SOURCE RED HAT

2 Serveurs OLAP et introduction au Data Mining

#BigData Dossier de presse Mai 2014

UE 8 Systèmes d information de gestion Le programme

Travailler avec les télécommunications

MailCube MC 2. 2,5 jours / homme / an. 33 milliards de kwh. 17 millions de. 3,1 millions de. nouvelle génération. Le spam en quelques chiffres :

et Groupe Eyrolles, 2006, ISBN :

INTRODUCTION AUX TESTS CODES DE L INTERFACE UTILISATEUR

Optimiser moteur recherche

Application de K-means à la définition du nombre de VM optimal dans un cloud

Installation d un serveur HTTP (Hypertext Transfer Protocol) sous Débian 6

Bien programmer. en Java ex. couleur. Avec plus de 50 études de cas et des comparaisons avec C++ et C# Emmanuel Puybaret.

Cognit Ive Cas d utilisation

Hébergement de sites Web

Projet M1 Sujet 21 : Développement d'un logiciel simplifié de type Business Object

Fouillez facilement dans votre système Big Data. Olivier TAVARD

PHP. Bertrand Estellon. 26 avril Aix-Marseille Université. Bertrand Estellon (AMU) PHP 26 avril / 214

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Groupe Eyrolles, 2004 ISBN :

Soutien technique en informatique

Hervé Couturier EVP, SAP Technology Development

Module BD et sites WEB

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

La fraude à la carte bancaire

Transcription:

Analyses croisées de sites Web pour détecter les sites de contrefaçon Prof. Dr. Olivier Biberstein Division of Computer Science 14 Novembre 2013

Plan 1. Présentation générale 2. Projet 3. Travaux futurs 4. Discussion BFH-TI 2

Présentation générale Olivier Biberstein, Professeur d informatique Bern University of Applied Sciences (www.bfh.ch) Research Institute for the Security in the Information Society (RISIS) BFH-TI 3

Projet Objectifs: Protéger la propriété intellectuelle et comprendre le phénomène de la contrefaçon Développer des outils pour lutter contre la contrefaçon Motivations: Conséquences lourdes pour la société et l économie Pertes estimées à plusieurs milliards de $ Mise en danger la santé et la vie des consommateurs Pertes de revenus pour les gouvernements Menace l emploi, I.P., et les investissements pour l innovation BFH-TI 4

Buts Développer une plate-forme pour Identifier sur Internet des documents liés à la contrefaçon Produire des résultats pour perturber les contrefacteurs Automatiser le processus d investigation Améliorer la connaissance de l organisation des contrefacteurs et leur modus operandi BFH-TI 5

Fonctionnalités Acquisition du contenu de ces documents Classification (semi)-automatique Extraction de nombreuses traces numériques Analyse pour inférer de nouvelles informations à partir de celles extraites; liens entre web-documents (raisonnement) Rapports d activités Visualisation BFH-TI 6

Aperçu global Image non disponible BFH-TI 7

Quelques technologies GlassFish application server MySql or Postgres databases JAVA EJB 3.1 (JEE 6) Vaadin web application framework Weka (data mining tool) BFH-TI 8

Trace numériques en bref Techniques URL (normalisation), IP adresse, ports,... WhoIs (domain, IP) DNS records Geolocalisation De contenu header: metatags, charset,... body: keywords, hyperlinks, number of images adresses email, numéros de téléphone, nickname images, prix, monnaies BFH-TI 9

Rappors d activités 1 Image non disponible BFH-TI 10

Travaux futurs A quels niveaux agir? Image non disponible BFH-TI 11

Acquisition automatique de web-documents Requêtes à de moteurs de recherches Utilisation du spam Et les réseaux sociaux faisant de la publicité? BFH-TI 12

Extraction de traces par traitement d images Détection de logo Extraction de texte inclus dans des images Identification de produits par comparaison d images Desobfuscation en évaluant le javascript BFH-TI 13

Classification automatique Quels algorithmes de data-mining, machine learning sont adéquats? Quelle information exploiter? structure du graphe DOM contenue dans les CSS hyper-liens BFH-TI 14

Similarités entre web-documents Établissement de mesures de similarité Définir les critères pour les mesures Quelle information exploiter?... BFH-TI 15

Inférence de relations entre web-documents Relations basées sur la transitivité Ajouter temporairement de l information manquante OWL est-il un candidat intéressant? Raisonnement plus complexes au moyen de raisonneurs? Sql ou nosql? BFH-TI 16

Visualisation des relations Et finalement De quelle manière visualiser toutes ces informations? Quels outils sont adéquats? BFH-TI 17

Merci pour votre attention BFH-TI 18