KROLLONTRACK / ELECTRONIC DISCOVERY & COMPUTER FORENSICS BIG DATA et EDISCOVERY - Etude de cas : le traitement des masses de données de l entreprise dans un contexte économique et judiciaire - Case study: mass business data handling in a judicial and logo economic contextnom de l intervenant Document confidentiel Ne pas diffuser sans autorisation 1 1
BIG DATA et EDISCOVERY Le Big Data peut s entendre comme tout traitement de données qui répond aux trois caractéristiques/dimensions suivantes: Volume : Le traitement doit concerner un volume important de données Variété : Les sources et les natures des données sont protéiformes Vélocité : La réception/collecte des informations et leur traitement doit être rapide L objectif de ces traitements étant de mettre en évidence ou anticiper des tendances ou des comportements Les procédures d Electronic Discovery, et plus largement les procédures impliquant des traitement de larges volumes de données (requêtes de régulateurs, procédure d audit interne ) obligent d adresser les mêmes problèmes. L objectif ici étant d identifier des documents pertinents par rapport à l objet de la requête. 2
L EDRM ou «Electronic Discovery Reference Model» Illustration du processus de «Discovery» Traitement Préservation Gestion de l information Identification Revue Production Collection Gestion de l information : Analyse Connaissance de l architecture des données (postes, serveurs, Cloud, archives), de leur cycle de vie et des règles internes les gouvernant; Identification Préservation Collection : Cibler uniquement les données pertinentes, déterminer la méthode de collecte et qui doit la réaliser tout en respectant leur intégrité et en maintenant la traçabilité de l information Traitement : Effectuer un traitement pour convertir et uniformiser l information, la filtrer, l indexer et la mettre à disposition sur une plateforme collaborative sécurisée Revue Analyse Production : Les personnes habilitées peuvent analyser et catégoriser les documents pertinents et permettre leur production/transfert 3
Gestion de la dimension «VOLUME» Les traitement des masses de données de l entreprise dans un contexte économique et judiciaire (procédure dites EDISCOVERY) impliquent de faire face à des volumes très important de données. Comment adresse t on ce problème Impact sur l identification et la collecte: Il faut définir précisément où se trouve l information pertinente ; Définir qui est le plus à même de collecter tel type d information; Dimensionner l équipe en charge de la collecte, standardiser les outils et l enregistrement des informations de traçabilité. Impact sur le traitement Il est possible de réduire le volume d information à traiter par des opérations de filtrage Par type (entêtes, extension), catégories; Par périodes Par mots clés (concept searching) déduplication (aucune, globale, utilisateur) 4
Gestion de la dimension «VARIETE» La dimension «VARIETE» affecte fortement les phases de collecte et de traitement Impact sur l identification et la collecte : Variété de lieu et de supports : nécessite des capacités de projection et/ou coordination; Variété de type : nécessite de la flexibilité pour la collecte (outils adaptés), des capacités d extraction des fichier archivés (problème des anciens formats) Impact sur le traitement Les données parmi lesquelles se trouvent les informations pertinentes sont de plus en plus variées. Un outil performant de gestion doit permettre la prise en compte des documents contenant du texte ainsi que les enregistrements audio (exemple de dossier «Audio Discovery») Les données sont dans la majorité non structurée mais peuvent être structurées (capacité de conversion, traitements manuels). Certains fichiers seront cryptés (capacité de déchiffrement) 5
Gestion de la dimension «VELOCITE» Dans le cadre d une procédure de type «EDISCOVERY», les délais impartis sont restreints et les larges volumes de données impactent la capacité de traitement rapide. Il convient donc de mettre en place des outils et méthodes pour garantir la «VELOCITE» tant dans la phase de traitement que dans la phase de revue. Optimisation du traitement pour maintenir la «VELOCITE» Afin de garantir un traitement continu de large set d information, il est indispensable de découper les données afin d éviter le blocage complet de la phase de traitement par un bloc problématique Utilisation d outils permettant d accélérer la revue rapide des documents Notre outil offre des méthodes variées pour trouver rapidement l information pertinente: Outil de recherche intégré : mots clés, recherche conceptuelle, recherche de similarité, Dictionnaire de recherche Visualisation graphique des échanges de courriels pour identifier les relations, Regroupement automatique des documents en catégories ou thèmes «Near-duplication» : comparaison aisée de document proches 6
Gestion de la dimension «VELOCITE» Outil Ontrack Inview permettant la revue des documents 7
Gestion de la dimension «VELOCITE» Utilisation des technologies dites de «Predictive coding» La technologie «IRT» développée par KrollOntrack permet d automatiser certaines phase de la revue des documents Les éléments constitutifs : Workflow : automatisation de la gestion administrative de la revue (affectation des données aux équipes de revue ) Priorisation : Analyse du comportement d une personne sur un set limité de données. Identification des caractéristiques communes aux documents identifiés comme pertinents. Application à la majorité des données afin de proposer en premier les documents potentiellement pertinents Catégorisation : Le système applique les choix humains à toutes les données et propose des catégories. 8
Gestion de la dimension «VELOCITE» Illustration de l intérêt de «IRT» Pourcentage avec IRT et sans (moyenne/jour) 12 Pourcentage de document pertinents 10 8 6 4 2 0 Cette ligne représente le nombre moyen de documents pertinents identifiés par jour Visualisation du gain de temps entre la revue assisté par IRT et la revue linéaire 9
Cas pratique : Projet Nightrunner Enquête concernant la possible violation de règles antitrust Demande urgente de collecter et traiter des données depuis huit pays Européens Premier appel reçu le vendredi et préparation de la phase de collecte des données pendant le week end (coordination des équipes pour chaque pays) Définition d utilisateurs prioritaires dont les données devront être revues par différentes équipes en fonction de la langue Le client devait respecter une échéance de 4 semaines pour procéder à la revue des données de 37 utilisateurs prioritaires Au total, 617,215 docs ont été chargés dans la base de données de notre solution Ontrack Inview 10
Cas pratique : Projet Nightrunner 11
Cas pratique : Projet Nightrunner Concernant les 37 utilisateurs prioritaires, 2.5 TB de données collectées ont été copiées sur nos serveurs Après déduplication et filtrage par date, 1,5 TB a été indexé En l espèce, plus de 9 000 mots clés ont été utilisés pour filtrer les données L ordre des utilisateurs prioritaires variait de manière journalière (entre 1 à 3 fois par jour) Au terme du traitement, 339 GB de données a été chargé dans la base de données d Ontrack Inview 120 documents ont été identifiés comme pertinents sur un total de 617 215 documents Les données ont été produites dans les délais impartis. 12
CONTACT CONTACT Emmanuel Laurentin Directeur du laboratoire Forensique Kroll Ontrack 2 impasse de la Noisette, 91371 Verrières-le-Buisson cedex 413 Tél +33 (0)1 69 53 66 95 Mob +33 (0)6 70 80 92 84 Fax +33 (0)1 69 53 66 84 elaurentin@krollontrack.com 13