Analyses croisées de sites Web pour détecter les sites de contrefaçon Prof. Dr. Olivier Biberstein Division of Computer Science 14 Novembre 2013
Plan 1. Présentation générale 2. Projet 3. Travaux futurs 4. Discussion BFH-TI 2
Présentation générale Olivier Biberstein, Professeur d informatique Bern University of Applied Sciences (www.bfh.ch) Research Institute for the Security in the Information Society (RISIS) BFH-TI 3
Projet Objectifs: Protéger la propriété intellectuelle et comprendre le phénomène de la contrefaçon Développer des outils pour lutter contre la contrefaçon Motivations: Conséquences lourdes pour la société et l économie Pertes estimées à plusieurs milliards de $ Mise en danger la santé et la vie des consommateurs Pertes de revenus pour les gouvernements Menace l emploi, I.P., et les investissements pour l innovation BFH-TI 4
Buts Développer une plate-forme pour Identifier sur Internet des documents liés à la contrefaçon Produire des résultats pour perturber les contrefacteurs Automatiser le processus d investigation Améliorer la connaissance de l organisation des contrefacteurs et leur modus operandi BFH-TI 5
Fonctionnalités Acquisition du contenu de ces documents Classification (semi)-automatique Extraction de nombreuses traces numériques Analyse pour inférer de nouvelles informations à partir de celles extraites; liens entre web-documents (raisonnement) Rapports d activités Visualisation BFH-TI 6
Aperçu global Image non disponible BFH-TI 7
Quelques technologies GlassFish application server MySql or Postgres databases JAVA EJB 3.1 (JEE 6) Vaadin web application framework Weka (data mining tool) BFH-TI 8
Trace numériques en bref Techniques URL (normalisation), IP adresse, ports,... WhoIs (domain, IP) DNS records Geolocalisation De contenu header: metatags, charset,... body: keywords, hyperlinks, number of images adresses email, numéros de téléphone, nickname images, prix, monnaies BFH-TI 9
Rappors d activités 1 Image non disponible BFH-TI 10
Travaux futurs A quels niveaux agir? Image non disponible BFH-TI 11
Acquisition automatique de web-documents Requêtes à de moteurs de recherches Utilisation du spam Et les réseaux sociaux faisant de la publicité? BFH-TI 12
Extraction de traces par traitement d images Détection de logo Extraction de texte inclus dans des images Identification de produits par comparaison d images Desobfuscation en évaluant le javascript BFH-TI 13
Classification automatique Quels algorithmes de data-mining, machine learning sont adéquats? Quelle information exploiter? structure du graphe DOM contenue dans les CSS hyper-liens BFH-TI 14
Similarités entre web-documents Établissement de mesures de similarité Définir les critères pour les mesures Quelle information exploiter?... BFH-TI 15
Inférence de relations entre web-documents Relations basées sur la transitivité Ajouter temporairement de l information manquante OWL est-il un candidat intéressant? Raisonnement plus complexes au moyen de raisonneurs? Sql ou nosql? BFH-TI 16
Visualisation des relations Et finalement De quelle manière visualiser toutes ces informations? Quels outils sont adéquats? BFH-TI 17
Merci pour votre attention BFH-TI 18