BIG DATA et EDISCOVERY



Documents pareils
GLOSSAIRE DU SOUTIEN EN CAS DE RECOURS EN JUSTICE

PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier.

Solution de gestion des journaux pour le Big Data

TRAVAUX DE RECHERCHE DANS LE

Conserver les Big Data, source de valeur pour demain

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data

PageScope Suite L accélérateur de workflow * L essentiel de l image

Nouveau Web Client marquant, Cumulus Video Cloud, optimisations de la base de données, et plus..

FORMATIONS OpenERP/Odoo ORIENTEES METIERS. THEME : COMMENT OpenERP/ODOO PEUT AMELIORER LES PERFORMANCES DE VOTRE ENTREPRISE

Logiciel KEL Annuel. Logiciel immobilier de gérance. Un logiciel du Groupe KEL

VOS INFORMATIONS ONT UNE VIE. Nous sommes là pour vous accompagner à chaque étape

Entreprises Solutions

Créer un référentiel client grâce à Talend MDM

CliniPACS : distribution sécurisée d'images DICOM en réseau local hospitalier

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION

Entreprise et Big Data

La présentation qui suit respecte la charte graphique de l entreprise GMF

10 bonnes pratiques de sécurité dans Microsoft SharePoint

SOLUTIONS DE SECURITE DU DOCUMENT DES SOLUTIONS EPROUVEES POUR UNE SECURITE SANS FAILLE DE VOTRE SYSTEME MULTIFONCTIONS SHARP DOCUMENT SOLUTIONS

Le fonctionnement d un service d archives en entreprise. Le Service national des archives

Programme détaillé. Administrateur de Base de Données Oracle - SQLServer - MySQL. Objectifs de la formation. Les métiers

Jean-François Boulicaut & Mohand-Saïd Hacid

Optimisez la gestion de l information dans votre entreprise

IBM Software Business Analytics. IBM Cognos FSR Automatisation du processus de reporting interne

WHITE PAPER Une revue de solution par Talend & Infosense

Sage Formation. Le parcours pédagogique Sage HR Management. Sage HR Management

La Gestion de la Relation Client n est pas un luxe : c est une nécessité pour gagner en efficacité

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

Symantec Enterprise Vault et Symantec Enterprise Vault.cloud

IBM Cognos Disclosure Management

Big Data, Cloud et Sécurité. Gilles MAGHAMI Senior Consultant

Axe de valeur BMC Identity Management, la stratégie d optimisation de la gestion des identités de BMC Software TM

Pérennisation des Informations Numériques

Webinar EBG Nouvelles perspectives d'exploitation des données clients avec le big data

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Pourquoi intégrer le Big Data à son organisa3on?

SÉCURITÉ, BANQUE ET ENTREPRISES. Prévention des risques de fraudes

Canon Business Services. Dématérialisation des factures fournisseurs

Modèle MSP: La vente de logiciel via les services infogérés

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Cognit Ive Cas d utilisation

Optimisez vos processus informatiques, maximisez le taux de rendement de vos actifs et améliorez les niveaux de service

Gestion collaborative de documents

IBM Tivoli Monitoring, version 6.1

Centre de Gestion de la Fonction Publique de la Loire Saint Etienne (42) - C.C.T.P- ACQUISITIONS D UN PROGICIEL DE GESTION DES RESSOURCES HUMAINES

Suite Jedox La Business-Driven Intelligence avec Jedox

CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES

I) - DEFINITIONS I-A) TERMINOLOGIE

CRM PERFORMANCE CONTACT

IBM Software Big Data. Plateforme IBM Big Data

Découverte et investigation des menaces avancées PRÉSENTATION

Livret de Stages 2014 / 2015

Catalogue «Intégration de solutions»

LES SOLUTIONS MEGA POUR LA GOUVERNANCE, RISQUES ET CONFORMITÉ (GRC)

La Gestion Électronique de Documents spécialement conçue pour les Experts Comptables

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

S informer sur. Les obligations

COMMUNIQUE DE LANCEMENT

Cloud computing. Des risques et des solutions CONFÉRENCE EUROCLOUD, 26 FÉVRIER 2013 CYRIL PIERRE-BEAUSSE

Dossier de Presse SYLOB

IT SERVICES BUSINESS STORAGE DATA AUDIT PARTNERSHIP INTEGRATOR SECURITY PLANNING PRIVATE AGILITY DYNAMIC PUBLIC TECHNOLOGY SOLUTIONS MANAGEMENT

La solution pour gérer vos connaissances techniques et scientifiques

SQL Server 2008 et YourSqlDba

Pilot4IT Tableaux de Bord Agréger et consolider l ensemble de vos indicateurs dans un même portail.

: seul le dossier dossier sera cherché, tous les sousdomaines

Accélérer l agilité de votre site de e-commerce. Cas client

MYXTRACTION La Business Intelligence en temps réel

11 Choses que les équipes informatiques devraient faire (mais n arrivent pas à faire)

SÉRIE NOUVELLES ARCHITECTURES

Teste et mesure vos réseaux et vos applicatifs en toute indépendance

IBM Social Media Analytics

SharePoint 2013 L'environnement de travail collaboratif

Pour une entreprise plus performante

Bases de Données Avancées

Microsoft Office system Février 2006

FAMILLE EMC RECOVERPOINT

NOUVEAU! SEPA Service Center

Système de gestion de caisses de pension

Système de Gestion Informatisée des. Exploitations Agricoles Irriguées avec Contrôle de l Eau

TOUJOURS UNE LONGUEUR D AVANCE.

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Archivage intermédiaire de données Scientifiques ISAAC Information Scientifique Archivée Au Cines

IBM Maximo Asset Management for IT

Génération de scripts automatiques pour la sécurité des cartes bancaires nouvelle génération (EMV)

Contrôle de l Activité et Gestion des Menaces dans un environnement Réseau Distribué. INTERDATA Présentation Q1Labs

DEMANDE D INFORMATION RFI (Request for information)

EMC ATMOS. Gestion des Big Data dans le cloud UN MOYEN ÉPROUVÉ D INTÉGRER LES AVANTAGES DU CLOUD DANS VOTRE ENTREPRISE FONCTIONS ATMOS

Construire le Business Case lié à l automatisation du Cloud avec vcloud Suite

QUICK GUIDE #1. Guide du pilotage par la performance pour les distributeurs automobiles

Inscriptions : Renseignements : 33 (0) education.france@sap.com

Sauvegarde EMC pour solutions SAP HANA prêtes pour le datacenter. EMC Data Domain avec DD Boost

Conférence de presse

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

IFT3030 Base de données. Chapitre 2 Architecture d une base de données

UNIFIED. Nouvelle génération d'architecture unifiée pour la protection des données D TA. dans des environnements virtuels et physiques PROTECTION

THE FLASH REVOLUTION IS RIGHT NOW. Pure Storage France Contact : france@purestorage.com Pure Storage, Inc. 1

Table. des Matières GÉNÉRALITÉS BASE DE DOCUMENTS

Comment valoriser votre patrimoine de données?

Transcription:

KROLLONTRACK / ELECTRONIC DISCOVERY & COMPUTER FORENSICS BIG DATA et EDISCOVERY - Etude de cas : le traitement des masses de données de l entreprise dans un contexte économique et judiciaire - Case study: mass business data handling in a judicial and logo economic contextnom de l intervenant Document confidentiel Ne pas diffuser sans autorisation 1 1

BIG DATA et EDISCOVERY Le Big Data peut s entendre comme tout traitement de données qui répond aux trois caractéristiques/dimensions suivantes: Volume : Le traitement doit concerner un volume important de données Variété : Les sources et les natures des données sont protéiformes Vélocité : La réception/collecte des informations et leur traitement doit être rapide L objectif de ces traitements étant de mettre en évidence ou anticiper des tendances ou des comportements Les procédures d Electronic Discovery, et plus largement les procédures impliquant des traitement de larges volumes de données (requêtes de régulateurs, procédure d audit interne ) obligent d adresser les mêmes problèmes. L objectif ici étant d identifier des documents pertinents par rapport à l objet de la requête. 2

L EDRM ou «Electronic Discovery Reference Model» Illustration du processus de «Discovery» Traitement Préservation Gestion de l information Identification Revue Production Collection Gestion de l information : Analyse Connaissance de l architecture des données (postes, serveurs, Cloud, archives), de leur cycle de vie et des règles internes les gouvernant; Identification Préservation Collection : Cibler uniquement les données pertinentes, déterminer la méthode de collecte et qui doit la réaliser tout en respectant leur intégrité et en maintenant la traçabilité de l information Traitement : Effectuer un traitement pour convertir et uniformiser l information, la filtrer, l indexer et la mettre à disposition sur une plateforme collaborative sécurisée Revue Analyse Production : Les personnes habilitées peuvent analyser et catégoriser les documents pertinents et permettre leur production/transfert 3

Gestion de la dimension «VOLUME» Les traitement des masses de données de l entreprise dans un contexte économique et judiciaire (procédure dites EDISCOVERY) impliquent de faire face à des volumes très important de données. Comment adresse t on ce problème Impact sur l identification et la collecte: Il faut définir précisément où se trouve l information pertinente ; Définir qui est le plus à même de collecter tel type d information; Dimensionner l équipe en charge de la collecte, standardiser les outils et l enregistrement des informations de traçabilité. Impact sur le traitement Il est possible de réduire le volume d information à traiter par des opérations de filtrage Par type (entêtes, extension), catégories; Par périodes Par mots clés (concept searching) déduplication (aucune, globale, utilisateur) 4

Gestion de la dimension «VARIETE» La dimension «VARIETE» affecte fortement les phases de collecte et de traitement Impact sur l identification et la collecte : Variété de lieu et de supports : nécessite des capacités de projection et/ou coordination; Variété de type : nécessite de la flexibilité pour la collecte (outils adaptés), des capacités d extraction des fichier archivés (problème des anciens formats) Impact sur le traitement Les données parmi lesquelles se trouvent les informations pertinentes sont de plus en plus variées. Un outil performant de gestion doit permettre la prise en compte des documents contenant du texte ainsi que les enregistrements audio (exemple de dossier «Audio Discovery») Les données sont dans la majorité non structurée mais peuvent être structurées (capacité de conversion, traitements manuels). Certains fichiers seront cryptés (capacité de déchiffrement) 5

Gestion de la dimension «VELOCITE» Dans le cadre d une procédure de type «EDISCOVERY», les délais impartis sont restreints et les larges volumes de données impactent la capacité de traitement rapide. Il convient donc de mettre en place des outils et méthodes pour garantir la «VELOCITE» tant dans la phase de traitement que dans la phase de revue. Optimisation du traitement pour maintenir la «VELOCITE» Afin de garantir un traitement continu de large set d information, il est indispensable de découper les données afin d éviter le blocage complet de la phase de traitement par un bloc problématique Utilisation d outils permettant d accélérer la revue rapide des documents Notre outil offre des méthodes variées pour trouver rapidement l information pertinente: Outil de recherche intégré : mots clés, recherche conceptuelle, recherche de similarité, Dictionnaire de recherche Visualisation graphique des échanges de courriels pour identifier les relations, Regroupement automatique des documents en catégories ou thèmes «Near-duplication» : comparaison aisée de document proches 6

Gestion de la dimension «VELOCITE» Outil Ontrack Inview permettant la revue des documents 7

Gestion de la dimension «VELOCITE» Utilisation des technologies dites de «Predictive coding» La technologie «IRT» développée par KrollOntrack permet d automatiser certaines phase de la revue des documents Les éléments constitutifs : Workflow : automatisation de la gestion administrative de la revue (affectation des données aux équipes de revue ) Priorisation : Analyse du comportement d une personne sur un set limité de données. Identification des caractéristiques communes aux documents identifiés comme pertinents. Application à la majorité des données afin de proposer en premier les documents potentiellement pertinents Catégorisation : Le système applique les choix humains à toutes les données et propose des catégories. 8

Gestion de la dimension «VELOCITE» Illustration de l intérêt de «IRT» Pourcentage avec IRT et sans (moyenne/jour) 12 Pourcentage de document pertinents 10 8 6 4 2 0 Cette ligne représente le nombre moyen de documents pertinents identifiés par jour Visualisation du gain de temps entre la revue assisté par IRT et la revue linéaire 9

Cas pratique : Projet Nightrunner Enquête concernant la possible violation de règles antitrust Demande urgente de collecter et traiter des données depuis huit pays Européens Premier appel reçu le vendredi et préparation de la phase de collecte des données pendant le week end (coordination des équipes pour chaque pays) Définition d utilisateurs prioritaires dont les données devront être revues par différentes équipes en fonction de la langue Le client devait respecter une échéance de 4 semaines pour procéder à la revue des données de 37 utilisateurs prioritaires Au total, 617,215 docs ont été chargés dans la base de données de notre solution Ontrack Inview 10

Cas pratique : Projet Nightrunner 11

Cas pratique : Projet Nightrunner Concernant les 37 utilisateurs prioritaires, 2.5 TB de données collectées ont été copiées sur nos serveurs Après déduplication et filtrage par date, 1,5 TB a été indexé En l espèce, plus de 9 000 mots clés ont été utilisés pour filtrer les données L ordre des utilisateurs prioritaires variait de manière journalière (entre 1 à 3 fois par jour) Au terme du traitement, 339 GB de données a été chargé dans la base de données d Ontrack Inview 120 documents ont été identifiés comme pertinents sur un total de 617 215 documents Les données ont été produites dans les délais impartis. 12

CONTACT CONTACT Emmanuel Laurentin Directeur du laboratoire Forensique Kroll Ontrack 2 impasse de la Noisette, 91371 Verrières-le-Buisson cedex 413 Tél +33 (0)1 69 53 66 95 Mob +33 (0)6 70 80 92 84 Fax +33 (0)1 69 53 66 84 elaurentin@krollontrack.com 13