I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

Dimension: px
Commencer à balayer dès la page:

Download "I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN."

Transcription

1 EPITA SCIA PROMO rue Voltaire Kremlin-Bicêtre I.D.S. Systèmes de détection d intrusion - Link Analysis Juillet 2004 par: DEVÈZE BENJAMIN FOUQUIN MATHIEU responsable: AKLI ADJAOUTE

2

3 TABLE DES MATIÈRES 1 Introduction 1 I I.D.S 2 2 Introduction 3 3 Méthodes de détection d intrusion Présentation Les logs Présentation Méthodologie Détection d anomalie Introduction negative selection algorithm real-valued negative selection algorithm Système hybride pour la détection d anomalie Datamining et détection d intrusion Définition Objectifs Apprentissage supervisé Apprentissage non supervisé Application de la classification dans la détection d intrusion Application du clustering dans la détection d intrusion Exemple d application du datamining à la détection d intrusion Système expert de détection d intrusion : Denning Détection d intrusion Off-line : SAS Framework Data mining de détection d intrusion : Lee Analyseur de log traditionnel Autres utilisations du data mining Détection d anomalies inconnues Modèles Théoriques Approche Probabiliste/GMM Approches non paramétrique Méthode de génération d anomalie artificielle Présentation i

4 TABLE DES MATIÈRES I.D.S Détection d anomalie pure Combinaison de la détection d abus et d anomalie Logique floue et détection d intrusion Présentation Application Autres travaux de catégorisation de texte et de réduction de paramètres Catégorisation d WWW Bookmark Categorisation II Link Analysis 27 8 Présentation Introduction Définition Intérêts et domaines d application État de l art Présentation COPLINK Introduction COPLINK Detect Perspectives Détection automatique de falsification d identité Introduction Record linkage algorithm Algorithmes de plus court chemin Sterling Software Introduction Les données Extraction Link Analysis Consolidation et Link Formation Introduction FinCEN Système Inductive Inference Link Analysis sur Internet Perspectives et conclusions 40 Annexes Bibliographie Glossaire a c ii

5 TABLE DES MATIÈRES I.D.S. Table des Figures d iii

6 CHAPITRE 1 INTRODUCTION Dans l environnement hostile dans lequel nous vivons il est nécessaire de développer des outils permettant de détecter l ensemble des évènements susceptibles de nous menacer. La puissance de traitement des ordinateurs bien exploitée peut nous aider dans cette tâche. Le présent rapport abordera dans une première partie les systèmes de détection d intrusion et dans une seconde partie le Link Analysis, nous verrons que ces deux domaines sont liés. Nous tenterons de mettre en avant l état de l art de ces domaines, les enjeux qu ils recouvrent ainsi que les problèmes et les perspectives qu ils soulèvent. 1

7 Première partie I.D.S 2

8 CHAPITRE 2 INTRODUCTION Depuis que les ordinateurs ont été mis en réseaux entre eux, la sécurité de ces réseaux s est révélé être une problématique extrêmement critique. Les deux dernières décennies ont vu les technologies de l information croître de façon spectaculaire. Les réseaux informatiques de toutes formes et de toutes tailles sont devenus omniprésent dans nos sociétés. L évolution rapide d Internet à eu pour incidence d augmenter de façon drastique les besoins de système de sécurité. Cette tendance a eu pour conséquence de rendre absolument vital le fait qu il soit possible de fournir des services stables. Le challenge dans la sécurisation des réseaux informatiques peut être découpé en trois étapes distinctes : La prévention : Il s agit d éviter les intrusions si possible. Les vulnérabilités des systèmes peuvent être identifiées et patchés. Les techniques de prévention d intrusion, telle que l authentification (en utilisant un mot de passe), ou la protection des informations (par le cryptage), a été utilisée comme premier moyen de défense pour protéger les systèmes informatiques. Mais la prévention d intrusion ne s est pas révélée suffisante au fur et à mesure que les systèmes sont devenus plus complexes car il existe alors des faiblesses exploitables dans les systèmes dues à des erreurs de conception ou de programmation. La détection : Il s agit de savoir aussi rapidement que possible quand une intrusion se produit. Actuellement, les outils pour y parvenir peuvent aller du simple antivirus ou firewall à un IDS pour aider à cette détection. La réaction : Il s agit de la réponse à une intrusion. Les problèmes doivent être corrigés, ou appris, les responsables de l intrusion stoppés et les données restaurées. Comme le montre le schéma ci dessous, issus des statistiques de CERT Coordination Center, le nombre d incident rapporté a augmenté de façon dramatique entre 1988 et 2002, pour dépasser les en

9 2 Introduction I.D.S. FIG. 2.1: Évolution du nombre d incidents La détection d intrusion a pour objectif d essayer surveiller et dans la mesure du possible de prévenir les intrusions dans un réseau afin que ce système et ses ressources ne soient pas compromises. De nombreux systèmes de détection d intrusion ont été employés. Leurs différences résident dans la façon dont l analyse des données à été effectuée. Ainsi, il est possible de classifier les différents systèmes selon ce critère : Network based systems : Ce type de système est placé sur le réseau, près des systèmes à évaluer. Il examine le trafic du réseau et détermine s il reste dans des limites acceptables. Host based systems : Ce type de system est actuellement utilisé sur les systèmes à contrôler. Il évalue pour sa part si l activité du système est normal. Ces systèmes basés sur les réseaux examinent les évènements comme des paquets d information échangés entre les différents ordinateurs, alors que les systèmes basés sur l hôte examinent quant à eux, les accès aux fichiers et lesquels d entre eux sont exécutés. Une approche hybride peut combiner les avantages de ces deux approches. 4

10 CHAPITRE 3 MÉTHODES DE DÉTECTION D INTRUSION Sommaire 3.1 Présentation Les logs Présentation Méthodologie Détection d anomalie Introduction negative selection algorithm real-valued negative selection algorithm Système hybride pour la détection d anomalie Présentation Selon la façon dont l analyse des données est effectuée, les détections d intrusion peuvent être classifiées entre les deux catégories suivantes : Misuse Detection : Dans ce cas, les configurations les caractérisant ont été apprises d attaques déjà connues. Ces configurations apprises sont recherchées à travers les nouvelles données afin de trouver des intrusions faisant partie de types déjà connus. Anomaly Detection : Dans ce cas, des configurations sont apprises à partir de données normales. Les données arrivant sont vérifiées dans le but de trouver des déviations aux configurations apprises. Ces déviations constituent alors des anomalies ou des possibles intrusions. Les détections d abus ont l avantage de ne pas seulement détecter des intrusions mais aussi d identifier le type d une intrusion particulière. Mais le désavantage de cette méthode est que les nouveaux types d intrusions, qui n ont pas été appris, ne sont absolument pas détecter. Les détections d anomalie, quant à elles, ont le désavantage 5

11 3 Méthodes de détection d intrusion I.D.S. de ne pas être capable de trouver le type de l intrusion mais de nouvelles intrusions non connues peuvent être découvertes grâce à cette méthode. Une approche combinée de ces deux méthodes peut s avérer très utile. En utilisant ce type d approche, il est possible par exemple, de rechercher dans un premier temps les détections d anomalies pour trouver de possibles intrusions, ensuite le type de l intrusion peut être identifier grâce à la détection d abus. Selon le moment ou l analyse des données est effectuée, deux situations sont alors possibles : détection d intrusion off-line détection d intrusion en temps réel Alors que l analyse off-line permet une plus grande profondeur de couverture parce que le traitement de l information peut être déplacé au moment où elle n atteint pas de pic. Mais, il peut détecter les intrusions qu une fois après que l évènement s est produit. Les systèmes de détection d intrusion en temps réel peuvent potentiellement repérer une tentative d intrusion avant que l état du système de soit compromis, mais ces systèmes doivent alors fonctionner de façon concurrente aux autres applications du système ce qui affectera significativement négativement le débit. En plus des coûts associés à la création et à l analyse de ces données, les systèmes de détection d intrusion ne pourront pas détecter toutes les tentatives d intrusions, tout d abord parce que seuls les scénarios d intrusion connus pourront être pris en compte. A cause du manque de connaissance, les systèmes de détection d intrusion échouent généralement à détecter de nouvelles intrusions en temps réel. Cependant, en appliquant par exemple certains algorithmes de datamining pour analyser ces données en mode off-line, des anomalies peuvent être découvertes, analyser par des experts humains, puis ces configurations de nouvelles attaques peuvent être ajouter et prises en compte par les systèmes de détection d intrusion en temps réel. Les méthodes qui permettent de détecter des intrusions peuvent être classer selon les catégories suivantes : Pattern Matching : Examine le contenu du trafic du réseau ou les fichiers log en temps réel afin de retrouver une séquence correspondant à une configuration apprise. Cette méthode est basique et rigide mais simple à implémenter et de ce fait largement utilisée. Stateful Pattern Matching : Effectue un pattern matching au sein même du flux de données. Protocol Decode-Based Analysis : Il s agit d une extension de la précédente méthode et recherche en plus des violations aux règles définis par les protocoles standards. Heuristic-Based Analysis Cette technique permet de prendre des décisions ç partir d un algorithme logique pré-programmé. Ces algorithmes sont souvent basés sur une évaluation statistique du trafic du réseau. Ananomaly Detection Cette méthode essaye de trouver des actions anormales à partir d un apprentissage des expériences passées sur des configurations jugées 6

12 3 Méthodes de détection d intrusion I.D.S. normales. Les quatre premières méthodes sont très largement utilisées par l industrie, mais peu à peu de nombreux hackers ont été au courant des configurations reconnus et utilisés également, ce qui a eu comme conséquence une émergence de nombreuses attaques basées sur d autres configurations. Il est de ce fait difficile d imaginer qu un pattern matching ou qu une méthode dérivée puisse protéger efficacement les systèmes. Mais l utilisation des techniques de data mining allié à des méthodes d apprentissage peut être utile pour apporter une solution efficace à cette problématique. 3.2 Les logs Présentation Afin de protéger les systèmes d éventuelles attaques, une approche courante est d enregistrer des logs afin de surveiller toutes les activités importantes. Chaque fois qu un évènement méritant d être noté se produit dans le système, une entrée sera ajoutée dans le fichier de log, que ce soit dans un format texte ou un format binaire. Par exemple, pour un site web, chaque requête de fichier sera enregistrée. Ces enregistrements permettent de savoir par la suite sur les utilisateurs, où ils sont sur le serveur et ce qu ils font. Ci dessous, voici un exemple d informations pouvant être récupérées à chaque entrée dans le fichier de log httpd sur un serveur web. FIG. 3.1: Exemple d informations du log httpd Mais le nombre d information est beaucoup trop important pour qu un être humain puisse vérifier ces log, car il peut s accumuler plusieurs giga-octets de données par jour sur certains systèmes. Une première méthode est de supprimer les données qui sont moins importante et ne conserver que les plus intéressantes. Mais cela nécessite un analyseur de log intelligent qui détecte automatiquement les activités anormales dans ces données en étant le moins dépendant possible des interventions humaines. 7

13 3 Méthodes de détection d intrusion I.D.S Méthodologie Il est intéressant d analyser de quelle manière les différentes attaques sont enregistrées dans les logs et quelle sont les corrélations que l on peut y découvrir afin d aider à identifier ces attaques. Deux approches complémentaires peuvent être utiliser pour tracer ces attaques : l approche top-down et l approche bottom-up. L approche top-down (attaque - logs) Dans cette approche nous partons d une attaque connue et nous analysons l évolution des traces contenues dans les logs. Cela permet généralement de révéler des comportements communs dans les classes d attaques. Le principal avantage de cette méthode est que cela ne nécessite pas une analyse détaillée des fichiers log qui peuvent être extrêmement volumineux dans la plupart des réseaux informatiques. Il est possible d effectuer cette analyse sur une très grande variété d attaques. Il est possible ensuite de générer le tableau suivant pour les différentes classes d attaque ce qui permet de savoir quelle log analyser pour chaque type d attaque. FIG. 3.2: Différentes classes d attaques L approche bottom-up (logs - attaque) Dans l approche bottom-up, nous essayons de récolter des informations sérieuses à partir de multiples logs afin d identifier une attaque spécifique. A partir d éléments simples telle qu un échec d identification, un grand nombre de ping, il s agit d essayer de découvrir des attiques potentielles. Une fois qu une anomalie est détectée à partir d un fichier log, la prochaine étape consiste à examiner les autres logs dans la même période de temps. Un arbre de décision peut être utilisé pour déterminer quel log doit être le prochain à examiner. Le principal avantage de cette méthode est que de nouvelles attaques non documentées peuvent être découvertes. Une agrégation peut être utile afin de grouper et de se débarrasser de l activité normale de façon à ce que seule l activité suspecte reste pour l analyse des corrélations. 8

14 3 Méthodes de détection d intrusion I.D.S. 3.3 Détection d anomalie Introduction Le problème de détection d anomalie peut être posé comme un problème à deux classes : étant donnée un élément de l espace, il s agit de le classer comme étant normal ou anormal. Différentes technologies ont été utilisés comme novelty detection (ou surprise detection), fault detection et outlier detection. La plupart de ces approches incluent des statistiques, des mécanismes d apprentissage, du data mining ou des techniques inspirées de la biologie. Dans de nombreuses applications de détection pourtant les données négatives (ou anormale) ne sont pas disponible lors des phases d entraînement. Par exemple dans les application de sécurisation informatique, il est difficile sinon impossible d avoir toutes les informations sur les possibles attaques. Dans les techniques d apprentissage, le manque de données sur les classes anormales crée de nombreuses difficultés pour appliquer des techniques supervisés ou de classification. Ainsi la solution évidente est d utiliser des algorithmes non supervisés negative selection algorithm L algorithme negative selection (NS) a été largement utilisé pour la détection de changement et d anomalie. Cet algorithme est inspiré de la biologie. D haeseleer et al. Proposent une implémentation efficiente de cet algorithme. Cet algorithme est spécialement conçu pour offrir une représentation binaire des données de l espace et des règles de recherche contiguës. Par contre il faut noter que cet algorithme connaît un certain nombre de limitations et de contraintes : Dans le but de garantir un bon niveau de détection, un grand nombre de détecteur doit être généré. Cela peut avoir pour conséquence de rendre l ensemble ingérable. La représentation binaire empêche l extraction de connaissances de plus haut niveau dans le domaine. Cela rend difficile l analyse pour le reporting des anomalies. La distinction entre les deux classes, normales et anormales, est trop précise. Un élément est considéré comme anormal s il existe un détecteur qui correspond. En réalité, la notion de normalité n est pas si tranchée. Une solution à ce problème consiste à utiliser la logique floue qui permet de nuancer les résultats finaux. D autres algorithmes inspirés de la biologie utilisent une représentation de plus haut niveau (vecteurs de réels). Une représentation de bas niveau, comme le binaire rend plus difficile d intégrer l algorithme NS avec ces derniers real-valued negative selection algorithm Gonzalez et al. ont proposé une approche pour appliquer l algorithme negative selection qui utiliserait une représentation de valeur réelle de l espace. Cet algorithme est appelé real-valued negative selection (RNS). Ce nouvel algorithme tente d alléger 9

15 3 Méthodes de détection d intrusion I.D.S. les problèmes vus précédemment en utilisant une structure de représentation de plus haut niveau qui accélère la génération du détecteur. Un avantage à utiliser une représentation à valeur réelle est que dans de nombreux cas, il est plus facile de re-planifier les détecteurs générés. Cette caractéristique à été utilisé pour implémenter une approche hybride combinant une sélection réelle négative avec un algorithme de classification conventionnel afin de réaliser les tâches de détection d anomalie. FIG. 3.3: real-valued negative selection algorithm Système hybride pour la détection d anomalie L algorithme NS a été souvent utilisé pour effectuer une détection négative, c est à dire que les détecteurs générés par l algorithme sont utilisés directement pour identifier les éléments anormaux de l espace. Nous allons maintenant pouvoir présenter une utilisation différente de l algorithme NS proposé initialement par Gonzalez et al. Cette approche n utilise pas la détection positive et négative, mais essaye le trouver une logique (stricte ou logique) entre les classes normale et anormale. Cette approche peut se révéler utile même si elle n est pas aussi performante qu un système de détection d anomalies distribué ou quand les données de départ est peu important. L idée de base est d utiliser l algorithme RNS pour générer les autres éléments. Ensuite on peut appliquer un algorithme de classification pour trouver une 10

16 3 Méthodes de détection d intrusion I.D.S. fonction de caractéristique de l espace. La figure ci-dessous illustre le fonctionnement de cette approche. Pendant la phase d entraînement, les entrées correspondent à des vecteurs de caractéristiques qui sont utilisés par l algorithme RNS afin de générer les éléments anormaux. En conséquence, les données normales et anormales sont finalement utilisées en entrée par un algorithme non supervisé qui produit un classifieur. Ce classifieur correspond à la fonction de détection d anomalie et est ensuite utiliser pendant la phase de test pour déterminer si les données sont normales ou non. FIG. 3.4: Fonctionnement de l approche hybride Il est important de souligner que cette technique permet l utilisation d un algorithme supervisé pour une tâche qui requiert traditionnellement une méthode non supervisé (comme dans le clustering). Les principaux avantages de cette approche sont Les problèmes de classifications ont été étudiés depuis longtemps. Il existe différents algorithmes qui ont été testé de façon extensive pour résoudre ces problèmes dans les différents domaines d utilisation. Cette approche hybride peut utiliser cet algorithme de façon différente. Cette approche ne requiert pas la modification de l algorithme de classification. Il permet d être plus modulaire en rendant plus facile l utilisation des implémentations existantes d algorithmes supervisés. Les problèmes de classification sont plus proches du problème de détection d anomalie que des problèmes d apprentissage non supervisé, comme le clustering. Les méthodes de clustering groupent les données d entrée en cherchant à maximiser la similarité intra-classes et en minimisant la similarité inter-classes. A l opposé, l objectif principal d un algorithme de classification est d améliorer l efficacité d un classifieur, ce qui est beaucoup plus proche de l objectif de détection d anomalie de maximiser le taux de détection en conservant un taux de fausses alarme très bas. Il est possible d utiliser les données anormales actuelles, si nécessaire en les com- 11

17 3 Méthodes de détection d intrusion I.D.S. binant avec celles générés par l algorithme RNS et en les fournissant ensemble à l algorithme de classification. 12

18 CHAPITRE 4 DATAMINING ET DÉTECTION D INTRUSION Sommaire 4.1 Définition Objectifs Apprentissage supervisé Apprentissage non supervisé Application de la classification dans la détection d intrusion Application du clustering dans la détection d intrusion Exemple d application du datamining à la détection d intrusion Système expert de détection d intrusion : Denning Détection d intrusion Off-line : SAS Framework Data mining de détection d intrusion : Lee Analyseur de log traditionnel Autres utilisations du data mining Définition Ensemble des techniques et de méthodes du domaine des statistiques, des mathématiques et de l informatique permettant l extraction, à partir d un important volume de données brutes, de connaissances originales auparavant inconnues. Il s agit de fouilles visant à découvrir de l information cachée que les données renferment et que l on découvre à la recherche d associations, de tendances, de relations ou de régularités. 4.2 Objectifs Pour corriger les problèmes que nous avons souligné précédemment, les techniques de data mining peuvent s avérer particulièrement utiles pour recherche les 13

19 4 Datamining et détection d intrusion I.D.S. configurations de structure qui sont intéressante. Dans le contexte de détection d intrusion, le data mining est défini comme le traitement d une large quantité de données collectée dans le but de trouver des configurations intéressantes. Ces configurations peuvent être associées à des attaques courantes, ou peuvent être des configurations de données normales où des déviations aux schémas classiques ont été détecté. Le data mining peut être un outil intéressant pour la détection d intrusion et de fraudes, mais il n est pas suffisant en lui-même pour assurer une sécurité complète. Nous allons maintenant étudier comment les techniques de data mining peuvent être employées dans les systèmes de détection d intrusion. 4.3 Apprentissage supervisé Entraîné par les données à disposition, un algorithme d apprentissage supervisé essaye de prédire avec le moins d erreur possible à quelle catégorie appartiennent les nouvelles données à tester. Il y a deux grandes sous-catégories pour l apprentissage supervisé : Classification : qui permet de prédire l appartenance à une classe parmi un nombre fini de classes. Régression : qui permet de prédire la valeur de sortie comme l un des ensembles potentiellement infini de données. Il existe de très nombreuses techniques de classification non supervisées. Elles incluent entre autres les Support Vector Machine (SVM), les arbres de décisions, les réseaux de neurones, le modèle naïve Bayes, les plus proches voisins ou les modèles de régression. Par exemple, un Naive Bayes classifier, entraîné avec un ensemble de données correspondant aux noms des virus avec leurs entêtes, peut filtrer de façon automatique les fichiers d un système en détectant les virus connus. 4.4 Apprentissage non supervisé Application de la classification dans la détection d intrusion Dans un système de détection d intrusion idéal, un classifieur apprend à partir d un nombre suffisant de données qu elles soient normales aussi bien qu anormales. Puis, ce programme peut être utilisé pour classifier les données non vues dans ces deux catégories : normale anormale Un point important en utilisant un algorithme d apprentissage pour la détection d anomalie est que la période d entraînement doit être complété quand tous les comportements normaux des programmes ou des utilisateurs ont été vu. Autrement, le modèle de détection appris commettra un nombre important d erreurs en classant en anormale des données normale alors qu il s agissait juste de données normales non vues. 14

20 4 Datamining et détection d intrusion I.D.S Application du clustering dans la détection d intrusion Dans la perspective de l apprentissage, la recherche de cluster s effectue de façon non supervisée. Effectuer un clustering correspond à essayer de découvrire la nature interne de l ensemble des données, puis de diviser les données dans des groupes de similarité. Du point de vue du datamining, le clustering correspond au partitionnement d un ensemble de données en différents groupes de telle façon que les éléments de ce groupe soient aussi similaires que possible entre eux et aussi différents que possible de ceux des autres clusters. Si le type de donnée n est pas connu (normal ou anormal), la procédure d apprentissage supervisée de type classification ne peut pas être appliquée. La solution est donc d utiliser des algorithmes de clustering. Le clustering peut permettre de trouver le cluster de donnée anormale dans le mélange de l ensemble des données. Il y a 3 grandes catégories d algorithmes de clustering pour résoudre cette problématique : le clustering basé sur partition, le clustering hiérarchique et le clustering basé sur les probabilités Clustering basé sur partition A partir d un nombre prédéfini de cluster, il trouve les partitions optimales pour chaque point. Il choisit le centre de façon à minimiser la somme suivante : où c(i) correspond au cluster pour lequel xi est assigné. L algorithme k-means est sans conteste l exemple le plus connu de cette sorte de méthode de clustering. Clustering hiérarchique Comme son nom l indique, le clustering hiérarchique construit une hiérarchie de cluster. Cette hiérarchie prend la forme d un arbre de cluster. Selon la façon dont l arbre est formé, le clustering hiérarchique peut être divisé en deux catégories, agglomérative et par division. Les méthodes agglomératives fusionnent les points de façon récursive alors que les autres partent d un cluster contenant toutes les données et les séparent progressivement en plus petits clusters. Clustering basé sur les probabilités On part ici du principe que les données viennent d un modèle multivarié et fini avec une probabilité de la forme : Autoclass fait partie de cette catégorie de clustering. 15

21 4 Datamining et détection d intrusion I.D.S. 4.5 Exemple d application du datamining à la détection d intrusion Système expert de détection d intrusion : Denning Denning était parmi les premières personnes à penser à appliquer le data mining à la sécurisation de réseaux. Il a ainsi fourni un modèle de système expert de détection d intrusion en temps réel. Le concept de ce modèle est que l exploitation des vulnérabilités d un système implique une utilisation anormale du système, et cette anormalité peut être détecter à partir des configurations d anormalité qui ont été enregistrée. Le modèle proposé est par exemple capable de détecter les entrée non autorisées, ainsi que beaucoup d autres formes d abus. Le modèle est constitué de six composants : Sujets, Objets, vérification d enregistrements, profils, enregistrement d anomalies, et règles d activité. Le modèle construit les profiles représentant le comportement des sujets (utilisateurs) en respectant l utilisation des objets (ressources). Quand une vérification d enregistrement est effectuée, il met à jour le profil et vérifie s il s agit ou non d une utilisation anormale. Le modèle est indépendant de la nature du système, de l environnement applicatif, de la vulnérabilité u système ou du type d intrusion, apportant ainsi un framework général pour résoudre cette problématique Détection d intrusion Off-line : SAS SAS a préparé un système de détection d intrusion off-line. Ils ont présenté un cas d étude dans lesquels ils montrent comment des données comportementales peuvent être extraites afin d identifier des activité de réseaux suspectes ou dangereuses. Ils montrent également de quelle manière les administrateurs systèmes peuvent vérifier les rapports d exceptions de comportement en appliquant aux futures données, les configurations découvertes grâce à l extraction. Ils affirment ainsi qu en utilisant leur produit, les logs peuvent être exploitée afin de montrer graphiquement les attaques TCP SYN, les attiques distribuée de dénie de service, le scan de port ainsi que d autres tentatives d intrusion. Utiliser le data mining et l analyse statistique, il est possible de trouver si certaines sortes d attaques ont lieu ou non Framework Data mining de détection d intrusion : Lee Lee et Stoflo ont effectué un long travail pour tenter d appliquer les techniques de data mining à la détection d intrusion. Les techniques de data mining qu ils utilisent pour leur système sont avant tout l apprentissage de classification et l apprentissage de règle d association. Pour la classification, ils ont utilisé l algorithme d apprentissage de règles RIPPER conçu par Cohen. Ils ont modifié certains des algorithmes d apprentissage d association et d analyse de séquence. Ils ont ensuite expérimenté ces techniques sur des enregistrements de commandes shell entrée par les utilisateurs ainsi que sur des séquences d appel au système 16

22 4 Datamining et détection d intrusion I.D.S. sendmail. Une fois l expérience réalisée sur les données sendmail apprises pour classifier les séquences d appel, et prédire ces appels de systèmes. Ils ont utilisé l algorithme d apprentissage de classification de règles RIPPER sur ces données. Les algorithmes d apprentissage d association de règles sont utilisés sur les enregistrements de commandes shell Analyseur de log traditionnel Snort Snort est un détecteur d intrusion extrêmement léger qui fonctionne par l analyse de log et qui a eu beaucoup de succès. Grâce à un large ensemble de règles maintenues par des experts, il peut détecter presque toutes les attaques connus. WebTrends Log Analyzer Webtrends est un bon exemple d un analyseur de log commercial. Il génère un grand nombre de statistiques dont des statistiques générales telle que le nombre de fichier accédé, longueur des sessions pour chaque utilisateur, les ressources utilisé, des statistiques d activités, des statistiques techniques etc... De nombreux outil se réfèrent souvent à ce type d analyseur de log en y ajoutant des fonctions d apprentissage et d analyse de corrélation qui deviennent intéressantes dans la perspective de réaliser un IDS performant Autres utilisations du data mining Méthodes générale et systématique pour la détection d intrusion Wenke Lee et Salvatore Stolfo ont développé quelques méthodes générales et systématiques pour la détection d intrusion. Ils ont ainsi conçu un framework utilisant les techniques de data mining pour découvrir des configurations consistante et utile de caractéristiques de système qui décrivent des comportements d utilisateurs ou de programmes. Pour détecter des anomalies et découvrir des intrusions, ils ont eu l idée d utiliser un ensemble de caractéristiques afin de calculer (après avoir été apprises) des classifications. Les principaux algorithmes de data mining qui ont été implémenté sont les algorithmes d association de règles afin de reconnaître les configurations internes et externes. Afin de répondre au challenge de l apprentissage de façon efficiente en même temps que la détection en temps réel, ils ont proposé une architecture à base d agent dans lequel l apprentissage des agents est calculé et utilisé par les modèles mis à jour de façon continu, tandis qu un agent de détection utilise un ensemble de règles (apprise et périodiquement mise à jour). SmartSifter SmartSifter est un système de détection d outlier basé sur un apprentissage non supervisé d un mécanisme de génération de données. Ce mécanisme est basé sur un 17

23 4 Datamining et détection d intrusion I.D.S. modèle probabiliste qui utilise un mélange de différents modèles. Each new input datum is examined to see how much it has deviated from a normal pattern. Chaque nouvelle donnée d entrée est examinée afin de voir de combien elle dévie des configurations normales. Au même moment, un algorithme d apprentissage on-line est employé pour mettre à jour le modèle. Le point de référence est donné par un score montrant combien de changements se sont produit après l apprentissage. Un haut score signifie que le point de référence est un outlier. 18

24 CHAPITRE 5 DÉTECTION D ANOMALIES INCONNUES Sommaire 5.1 Modèles Théoriques Approche Probabiliste/GMM Approches non paramétrique Méthode de génération d anomalie artificielle Présentation Détection d anomalie pure Combinaison de la détection d abus et d anomalie. 22 La détection d intrusion nouvelle correspond à l identification d intrusion inconnue qui n ont pas été fourni lors de l apprentissage. C est là un des points fondamentaux d une bonne classification ou d un système d identification, lorsque quelquefois les données de test contiennent des informations sur des objets qui ne sont pas connu au moment de l entraînement. Les anomalies peuvent être vues comme une sorte de nouveauté. Normalement, on attend d un classifieur de donner des résultats sérieux pour les données de test similaires à celles qui ont été données pendant l entraînement. Mais dans le monde réel, les besoins sont complètement différents, car des données anormales peuvent survenir, changeant alors la nature du problème. Comparé au problème classique de classification en deux classes, un système de détection d anomalie est entraîné avec seulement des configurations normales et tente de prédire ensuite sur des données anormales seulement à partir des modèles construits grâce aux données normales. Il existe plusieurs catégories de méthodes de détections nouvelles qui ont été utilisés sur différents ensembles de données. Il n existe à priori pas de meilleure méthode conseillée pour tous les cas, car le succès de la technique employée dépend non seulement de la méthode mais aussi des propriétés statistiques des données en question. Pourtant il est vrai qu en expérimentant les différentes méthodes d apprentissage et de détection, pour un problème précis telle que l analyse de log, il est possible de se rendre compte que certaines fonctionnent et d autres non. Nous allons maintenant étudier les différentes approches que l on peut utiliser pour détecter les intrusions nouvelles. 19

25 5 Détection d anomalies inconnues I.D.S. 5.1 Modèles Théoriques Approche Probabiliste/GMM Cette catégorie de méthode est basée sur le modèle statistique de données et estime que les données de test possèdent la même distribution ce qui permet de générer les données de l entraînement. Il faut tout d abord estimer la fonction de densité des données de l entraînement. En supposant que les données de l entraînement sont normales, la probabilité qu une donnée de test fasse partie de cette classe, peut être calculée. Un seuil peut être fixé pour signaler une nouvelle intrusion si la probabilité calculée est inférieure à ce seuil. Pour les modèle GMM (Gaussian Mixture Modelling), les paramètres de ce modèle sont choisis pour maximiser la probabilité que les données de l entraînement respectent le modèle. Cette tâche pourrait être effectuée en utilisant une technique de ré-estimation tel que l algorithme EM. Pourtant, GMM souffre d un problème de dimensionnement dans le sens que si la dimension des données est trop élevée, un très grand nombre d élément de test sera nécessaire ce qui implique des calculs trop complexes. Un moyen plus simple consiste simplement à trouver la distance entre les données de test et la moyenne de la classe. Si les données de test sont trop éloignées de la somme de cette moyenne et du seuil de variance alors on peut en déduire qu il s agit d un élément nouveau Approches non paramétrique Pour les méthodes non paramétriques, la forme de l ensemble de la fonction de densité est estimée à partir de la donnée aussi bien comme des paramètres du modèle. Ainsi les méthodes non paramétriques ne requièrent à priori pas de connaissance importante du problème, et non de ce fait pas à faire de supposition sur la forme de la distribution des données. Cela leur permet d être plus flexible que les autres méthodes employées dans la détection d éléments nouveaux. Approche K-nearest neighbour L algorithme k-nearest neighbour est une autre technique pour estimer la fonction de densité des données. Cette technique permet de résoudre avec succès certains problèmes d estimation Parzen window de qui n ont pas besoin de paramètres de lissage. Au lieu que le paramètre de largeur est affecté à un résultat de la position du point en relation aux autres données en considérant les k données les plus proches dans l ensemble des données de l entraînement comme les données de test. Pour la détection d éléments nouveaux, la distribution des vecteurs normaux est décrites par un petit nombre de cluster sphérique, placé par la technique des k-nearest neighbour. Les nouveautés sont estimées en mesurant la distance normalisée entre un point à tester et le centre du cluster. 20

26 5 Détection d anomalies inconnues I.D.S. Approches par recherche de chaînes L approche de recherche de chaîne (String matching) est inspiré de la biologie. En étudiant la façon dont le système immunitaire fonctionne, basé sur la génération de cellule T, un algorithme de détection des changements constatés à pu être proposés. Calibrer les données de l entraînement qui sont représenté par une chaîne (vecteur de caractéristiques), permet de calculer certaines mesure de dissimilarité entre les données d entraînement et de test. Les données internes sont converties dans un format binaire de façon à former une collection. Enfin, un grand nombre de valeurs aléatoires sont générées puis comparées avec les chaînes de la collection et ceux qui correspondent sont éliminés. Comme une correspondance parfaite est extrêmement rare, le critère est progressivement réduit de façon à seulement considérer les recherches contiguës dans les chaînes. La limitation essentielle de cette méthode est due à la difficulté de calcul pour générer les données initiales. Cette méthode peut être appliquée entre autre à la détection de virus avec des résultats satisfaisants. Approches basées sur les réseaux de neurones Un grand nombre d architectures différentes de réseaux de neurones sont appliquées pour la détection de nouveauté. Un réseau de neurone peut par exemple détecter une nouveauté en fixant un seuil sur les valeurs de sorties du réseau. Il peut également calculer la distance euclidienne entre les configurations de sortie et les configurations visées. On considère alors ceux dont la distance est la plus grande comme nouveaux. Les réseaux de neurones peuvent être utiliser pour identifier les utilisateurs légitimes à partir des commandes que ces derniers ont entré. Ces réseaux de neurones sont généralement entraînés en utilisant l algorithme de la back-propagation. Lorsque ces réseaux génèrent une action maximum inférieure à 0.5, alors on peut déduire qu il s agit d une nouveauté. Les systèmes de détection d intrusion doivent être capable de détecter de nouvelles attaques ou anomalies inconnus. Nous allons étudier comment il est possible de construire des modèles de détection de mauvais usage ou d anomalie qu elles soient connues ou inconnues. Il est possible de générer des anomalies artificielles de façon à forcer un système d apprentissage inductif à découvrir une frontière précise entre les classes connus (connexions normales et intrusions connues) et les anomalies. Des études empiriques ont montré qu un modèle de pure détection d anomalies est capable de détecter plus que 77% de toutes les classes d intrusion inconnues avec une précision de plus de 50% par classe. 21

27 5 Détection d anomalies inconnues I.D.S. 5.2 Méthode de génération d anomalie artificielle Présentation Une difficulté majeure dans l utilisation de méthode d apprentissage pour la détection d anomalie est de déterminer la frontière entre les classes connues et inconnues. Lorsque l on commence l entraînement, un algorithme d apprentissage ne pourra que découvrir une frontière qui sépare différentes classes connues dans les données de l apprentissage. Ceci à pour but d éviter le risque d overfitting dans le modèle. Ainsi pour conserver une généralisation et éviter ce risque, les algorithmes d apprentissages ne spécifient pas de frontière entre les classes connues. Certains systèmes d apprentissage peuvent générer une classification par défaut qui n est pas couverte pas les hypothèses apprises. L étiquette d une classification par défaut est souvent défini comme la classe la plus courante de toutes les instances non couvertes dans les données de l entraînement. Il est possible de modifier cette prédiction par défaut d être une anomalie, de façon à ce que toutes les instances non-couvertes ne soient pas des anomalies. Il est également possible d accorder les paramètres de l apprentissage pour les forcer à prendre en compte des hypothèses plus spécifiques. Toutefois, les expérimentations de ces méthodes permettent d affirmer que leurs performances ne sont pas suffisantes. C est l échec de l utilisation d hypothèses plus spécifiques qui a permis de déboucher sur la proposition de génération d anomalie artificielle. Les anomalies artificielles sont injectées dans les données de l entraînement pour aider le système d apprentissage à découvrir une limite autour des données originales. Toutes les anomalies artificielles sont attribuer à la classe d anomalie. On part de l hypothèse que les données de l entraînement sont représentatives. Il faut également noter que les méthodes de génération d anomalie sont indépendantes de l algorithme d apprentissage Détection d anomalie pure Pour la détection d anomalie pure, il est possible d utiliser un modèle prenant en compte toutes les connexions normales ajoutées aux anomalies. Nous nous référons à cette collection Utiliser l algorithme RIPPER permet d apprendre un grand nombre de règles qu elles s applique aux données normale ou aux anomalies de notre ensemble de données. En cumulant le taux de détection d anomalies, on peut constater que le modèle détecte plus de 94% dans les données de test en conservant un pourcentage de fausse alarme à environ 2%. Cette méthode se révèle néanmoins avoir un gros défaut. S il est possible de détecter un grand nombre d anomalies non apprises par ce mécanisme, il faut noter qu en augmentant la taux de détection des nouvelles anomalies, on augmente hélas le taux de fausses alertes sur les données non vues Combinaison de la détection d abus et d anomalie Un pur système de détection peut générer un grand nombre de fausses alertes. Cette limite due aux anomalies artificielle peut ensuite s améliorer en ajouter des 22

28 5 Détection d anomalies inconnues I.D.S. intrusions réelles. Des modules séparés pour les détections d anomalie et d abus ne serait absolument pas efficient en restant des modules séparés effectuant chacun une tâche distincte. FIG. 5.1: Combinaison de la détection d abus et d anomalie On procède à l apprentissage d un ensemble de règles pour combiner la détection d abus et d anomalie. Cela permet ensuite par exemple de classifier une connexion comme normale ou comme une anomalie. L approche développée par Wei Fan, en utilisant cette combinaison lui a permis de grouper les intrusions en 13 petits clusters. Ces ensembles de données sont créés de façon incrémentale, ajoutant chaque cluster dans les ensemble de données normales et en générant à nouveaux des anomalies. Cela permet ainsi de simuler l invention de nouvelles intrusions ainsi que leur incorporation dans la procédure d entraînement. 23

29 CHAPITRE 6 LOGIQUE FLOUE ET DÉTECTION D INTRUSION Sommaire 6.1 Présentation Application Présentation La logique floue est née de la constatation que la plupart des phénomènes ne peuvent pas être représentés à l aide de variables booléennes qui ne peuvent prendre que deux valeurs (0 ou 1). Pour répondre à ce type de question, la logique floue considère la notion d appartenance d un objet à un ensemble non plus comme une fonction booléenne mais comme une fonction qui peut prendre toutes les valeurs entre 0 et 1. La logique floue, qui introduit une infinité de valeurs entre vrai et faux, permet de déterminer un degré d appartenance à l un ou l autre état. Elle permet ainsi de combler les lacunes de la logique booléenne en introduisant la notion de continuité entre les états. Il existe des situations où un expert humain procéderait naturellement à une classification en utilisant, plus ou moins consciemment, des règles floues. Le principe de fonctionnement d un système flou est simple. Une première étape consiste à déterminer le degré d appartenance de chaque variable d entrée à chaque état à l aide des fonctions d appartenance définies dans le système. Les degrés d appartenance de chaque variable à chaque état permettent d appliquer les règles floues qui ont été préalablement définies. Le degré d appartenance des variables de sortie à chaque état est ainsi obtenu. Enfin, comme le système flou ne peut pas communiquer des valeurs floues qu il peut seul exploiter, il lui est nécessaire de fournir des valeurs précises, c est le rôle de la défuzzification. La logique floue ouvre des possibilités remarquables de codification des connaissances des experts. Les applications sont tout simplement plus faciles à réaliser et à 24

30 6 Logique floue et détection d intrusion I.D.S. utiliser : l utilisation faite par la logique floue d expressions du langage courant permet au système flou de rester compréhensible pour les personnes non expertes. C est ainsi que des machines complexes peuvent devenir plus conviviales grâce à l utilisation de la logique floue. 6.2 Application Dans tous les modèles de détection d intrusion que nous avons vu jusqu à présent, que ces derniers utilisent des technologies à base de statistiques, les techniques de data mining ou les réseaux de neurones souffrent dans la façon de les utiliser d un problème. Nous recherchons dans la plupart des cas à savoir si oui ou non, nous sommes face à une intrusion, et de quelle catégorie d intrusion elle peut faire partie. A aucun moment les modèles ne laissent leur place au doute, ou à l incertitude. Il n est pas possible de spécifier qu il s agit d une intrusion à 40%, ou de spécifier que les règles apprises ne permettent pas de déterminer préciser entre 2 attaques de quelle catégorie il s agit. Nous l avons vu rapidement, nous sommes assez vite confrontés à un problème qui est de détecter le plus grand ratio d intrusion qui se produisent, ce qui devient assez complexe lorsqu il s agit d intrusions non connues, mais il faut toujours garder en mémoire qu il convient en faisant cela ne pas trop augmenter le pourcentage de fausses alarmes. L intégration de la logique floue permet de ce fait d apporter de nombreuses nuances qui manquent dans la plupart des solutions proposées jusqu à ce jour. Ainsi, il ne s agit plus de rechercher une frontière toujours plus précise, entre la classe des intrusions et celle des comportements normaux qui sera de toute façon inexacte, se révélant soit trop imprécise, soit certainement optimisée et trop rigide aux nouvelles intrusions. Selon les technologies employées, l intégration de la logique floue peut se faire plus ou moins facilement. Dans l application des réseaux de neurones pour la détection d intrusion, cela peut se faire assez naturellement, puisque les modèle renvois généralement une valeur entre 0 et 1 (ou -1 et 1) correspondant à la probabilité qu il s agisse d une intrusion. Bien sûr il conviendra souvent de modifier quelque peu la nature de l apprentissage afin de le diriger de façon à ce que les valeurs de sortie intermédiaire aient le plus de sens possible. Pour certaines techniques statistiques, en particulier les méthodes probabilistes, cette intégration peut être également relativement aisée. Mais dans d autres cas, il conviendra d évolution en profondeur les modèles afin que les règles ou des arbres de décisions utilisés de débouchent pas sur des réponses booléennes. 25

31 CHAPITRE 7 AUTRES TRAVAUX DE CATÉGORISATION DE TEXTE ET DE RÉDUCTION DE PARAMÈTRES Sommaire 7.1 Catégorisation d WWW Bookmark Categorisation Catégorisation d Wenke Lee et Salvatore Stolfo ont cherché à appliquer la théorie des ensembles à la recherche d information et le filtrage de domaine. Ils ont ainsi créé une application permettant de séparer en catégorie des s en utilisant l algorithme QuickReduct pour réduire la dimension tout en conservant autant que possible les informations intéressantes pour la prédiction. Ce système est modulaire de l entraînement au test des ensembles de données, acquisition des mots de passe, réduction de dimension ou classifieur. 7.2 WWW Bookmark Categorisation Le système WWW Bookmark Categorisation est basé sur une réduction Rough Set (RS). L auteur de cette méthode a pu démontrer que dans ce domaine, RS a réussi avec succès à réduire les ensembles de données en conservant la plupart des informations. D autres méthodes de réduction ont été comparées à RS, telle que Entropy-Based Reduction (EBR), ce qui a permis de trouver que cette dernière peut aussi avoir des performances similaires dans ce domaine. 26

32 Deuxième partie Link Analysis 27

33 CHAPITRE 8 PRÉSENTATION Sommaire 8.1 Introduction Définition Intérêts et domaines d application Introduction Nous avons vu dans le cadre des IDS, qu il était indispensable de pouvoir établir des liens entre des évènements a priori dissociés 1. Dans le contexte actuel, la lutte antiterroriste représente également un enjeux majeur. Il serait nécessaire de pouvoir traiter des centaines de milliers d informations provenant de différentes sources et de pouvoir les mettre en relation quasi instantanément. Ceci permettrait de détecter des anomalies, des fraudes, de mettre à jour les réseaux terroristes, d éventuelles complicités, d identifier des falsifications d identité... Pour se convaincre de l utilité du Link Analysis dans le domaine de la lutte contre le terrorisme,?? propose un exemple de l application de la méthode sur l attentat perpétré par la secte Aum. Comme nous allons le voir le Link Analysis intervient dans tous ces domaines et dans bien d autres. Nous verrons pour commencer une définition succinte, puis nous aborderons les intérêts majeurs de la discipline, les domaines d applications et enfin nous nous intéresserons de manière plus technique à l état de l art ainsi qu aux méthodes et domaines qui se rattachent au LA. Ceci nous permettra de voir qu il reste un gros travail à effectuer en LA, il s agit donc d un domaine d intérêt surtout lorsqu on réalise les applications qu il recouvre. 8.2 Définition De nos jours les bases de données enregistrent des transactions impliquant de nombreux individus. Découvrir des informations utiles, telles que des anomalies pouvant indiquer des fraudes, dans ces bases de données nécessitent fréquemment de construire des réseaux d individus en reliant entre elles des transactions. Cette construction de réseaux est appelée Link Formation. Ces réseaux peuvent ensuite être 1 Détection d attaques groupées par exemple 28

34 8 Présentation I.D.S. analysés en appliquant des techniques d apprentissage travaillant sur des informations structurées, ou encore par d autres techniques telles que la visualisation. L ensemble des techniques permettant non seulement de construire mais aussi de visualiser, construire, modifier, analyser, afficher, rechercher ces réseaux sont collectivement référencées sous le nom de Link Analysis, et peuvent s avérer, comme nous allons le voir, très utiles dans bien des domaines. Nous utiliserons par la suite LA, en lieu et place de Link Analysis. 8.3 Intérêts et domaines d application Le LA par ordinateur est de plus en plus utilisé dans le cadre des enquêtes criminelles, de la détection de fraudes 2, de l analyse des réseaux de télécommunications, des recherches pharmaceutiques, de l épidémiologie ainsi que dans bien d autres domaines spécialisés. Le LA cherche à établir des associations parmi un grand nombre d objets de nature différente. Ainsi, par exemple, une application dans le domaine des enquêtes criminelles pourrait étudier automatiquement les relations familiales entre suspects et victimes, les adresses de résidence de ces personnes, les numéros de téléphones qu elles ont appelés durant une période donnée, etc. Toutes ces informations permettraient de dégager des données utiles à l enquête, et de faire ressortir des points pertinents qui peuvent échapper à la vigilence d un enquêteur humain (qui bien que compétent, peut difficilement prétendre pouvoir établir une recherche aussi exhaustive, de manière rapide et efficace). Cette capacité du LA à dégager et représenter des relations et associations entre des objets de nature différente a d ores et déjà fait ses preuves. Elle s est, en effet, montrée cruciale pour aider un enquêteur humain à appréhender correctement des faisceaux complexes d indices et à en tirer des conclusions pertinentes, qui n étaient pas apparentes en s appuyant sur chaque information prise séparément. Une application dans le domaine de lépidémiologie pourrait par exemple dresser automatiquement un réseau de toutes les personnes ayant pu rentrer en contact avec un individu atteint d un virus hautement contagieux. Cela permettrait de cibler efficacement l ensemble des personnes à surveiller, vacciner et mettre en quarantaine. Une telle application, capable d endiguer efficacement une telle crise, serait évidemment d un grand intérêt pour les services de santé concernés. Dans le domaine du LA, il y a donc à la fois un besoin et une opportunité intéressante d appliquer les nouvelles technologies. La plupart des logiciels actuels ne sont, en effet, pas grand chose de plus qu un outil d affichage graphique. Bien que de visualiser des réseaux est utile, des applications avancées du LA impliquent des dizaines de milliers d objets et de liens, la simple visualisation s avère alors insuffisante : la construction et l analyse manuelle de tels réseaux étant bien évidemment très difficile. De plus, un grand nombre de techniques issues de l intelligence artificielle ainsi que de quelques autres domaines ont le potentiel pour aider les humains à raisonner à partir de réseaux aussi complexes. Ces techniques s inscrivent notamment dans les domaines suivants : réseaux sémantiques, ontologies, agents, logique inductive, théorie des graphes, analyse des réseaux sociaux, data mining, modélisation des 2 Notamment dans le domaine des assurances 29

35 8 Présentation I.D.S. relations, extraction d information... 30

36 CHAPITRE 9 ÉTAT DE L ART Sommaire 9.1 Présentation COPLINK Introduction COPLINK Detect Perspectives Détection automatique de falsification d identité Introduction Record linkage algorithm Algorithmes de plus court chemin Sterling Software Introduction Les données Extraction Link Analysis Consolidation et Link Formation Introduction FinCEN Système Inductive Inference Link Analysis sur Internet Présentation Nous développons ici un état de l art du domaine, en nous focalisant principalement sur le domaine de la lutte contre la criminalité. 31

37 9 État de l art I.D.S. 9.2 COPLINK Introduction Dans le contexte actuel, de gros efforts sont faits pour moderniser les capacités de traitement de l information des autorités. Cependant, malgré la mise à disposition de données de plus en plus conséquentes de nombreuses difficultés viennent ralentir le travail des organismes luttant contre la criminalité. Les outils nécessaires pour retrouver, filtrer, intégrer et présenter intelligemment les informations pertinentes font défaut. Or le domaine de la lutte contre les infractions et le terrorisme ne souffre aucune erreur, il faut agir vite, prendre des décisions rapides, l information pertinente doit être dégagée instantanément et cela dans une masse de données colossalle. Il est difficile d identifier un suspect plus de 72h après le crime. Durant ce laps de temps le suspect peut en effet changer d apparence, détruire des indices... Il est donc crucial d être efficace. COPLINK est un outil applicatif qui vise à répondre à cette problématique depuis Il est développé par le laboratoire d intelligence artificielle de l université de l Arizona en collaboration avec la police de Tucson. Le but de COPLINK est de développé un système de gestion de l information permettant l accès, l analyse, la visualisation et le partage des données. COPLINK est structuré autour de deux composants, COPLINK Connect qui permet le partage transparent de l information entre différentes entitées hétérogènes. COPLINK Detect, qui nous intéresse ici, vise à faire émerger les différentes associations criminelles au sein des bases de données. 32

38 9 État de l art I.D.S COPLINK Detect Ce module est destiné aux recherches avancées et s adresse donc aux experts analystes de la criminologie. Une partie importante du travail de ces experts est de dégager des associations, des liens entre différents aspects d une affaire. Concept Space permet d identifier automatiquement de tels liens à partir des données existantes. En général un Concept Space est un réseaux de termes, dont les liens pondérés représentent des concepts. COPLINK Detect utilise des techniques statistiques (analyse de cooccurence, clustering) afin de pondérer les liens entre toutes les paires possibles de concepts. Aucune connaissance codée à la main du domaine lui est nécessaire pour cette analyse. COPLINK Detect s appuie sur les rapports criminels, en partie structurés, afin de dégager des liens entre différentes entitées (personnes, organisations, lieux, véhicules, incidents, types de crimes...). Les enquêteurs peuvent ainsi aisément relier des objets connus (un suspect par exemple) avec d autres objets qui lui sont liés (des personnes, des véhicules...) afin de créer un réseau social qui peut permettre de dégager des informations intéressantes. Un travail est également fait sur la visualisation de ces réseaux d association comme en témoigne l image suivante : FIG. 9.1: COPLINK visualisation Dans ce cas un officier cherche toutes les entités reliées à un suspect nommé Eddie Tipton. L épaisseur des arêtes indiquent la proximité de la relation. La couleur indique le type de chaque entité. Il est possible de réduire la visualisation en appliquant des filtres. En général, la construction d un Concept Space spécifique à un domaine implique plusieurs grandes étapes. Il faut d abord identifier les sources documentaires d où 33

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln. MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.fr Plan Introduction Généralités sur les systèmes de détection d intrusion

Plus en détail

L audit de sécurité des réseaux Windows avec WinReporter

L audit de sécurité des réseaux Windows avec WinReporter White Paper L audit de sécurité des réseaux Windows avec WinReporter Ce document présente comment les administrateurs réseaux et système peuvent tirer le meilleur parti de WinReporter, édité par IS Decisions,

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Apprentissage supervisé

Apprentissage supervisé Apprentissage supervisé 1 Apprendre aux ordinateurs à apprendre Objectif : appliquer la démarche de l apprentissage par l exemple à l ordinateur. Montrer des exemples à l ordinateur en lui disant de quoi

Plus en détail

Formation A2IMP. Acquisition d information sur les autres équipements du réseau. Frédéric Bongat IPSL Formation A2IMP 1

Formation A2IMP. Acquisition d information sur les autres équipements du réseau. Frédéric Bongat IPSL Formation A2IMP 1 Formation A2IMP Acquisition d information sur les autres Frédéric Bongat IPSL Formation A2IMP 1 Idée : corréler des informations via d autres Informations de base Connaître l horodatage (date, heure) des

Plus en détail

PROBLÉMATIQUE D INTERCONNEXION DES RÉSEAUX IP

PROBLÉMATIQUE D INTERCONNEXION DES RÉSEAUX IP PREMIER MINISTRE Secrétariat général de la défense nationale Direction centrale de la sécurité des systèmes d information Sous-direction scientifique et technique Laboratoire Technologies de l Information

Plus en détail

IDS snort. Rémi JACHNIEWICZ et Romain GEGOUT 6 décembre 2008

IDS snort. Rémi JACHNIEWICZ et Romain GEGOUT 6 décembre 2008 IDS snort Rémi JACHNIEWICZ et Romain GEGOUT 6 décembre 2008 1 Table des matières 1 Les différents IDS 3 1.1 Les NIDS (Network IDS ou IDS Réseau)..................... 3 1.2 Les HIDS (Host IDS ou IDS Machine)......................

Plus en détail

1 La visualisation des logs au CNES

1 La visualisation des logs au CNES 1 La visualisation des logs au CNES 1.1 Historique Depuis près de 2 ans maintenant, le CNES a mis en place une «cellule d analyse de logs». Son rôle est multiple : Cette cellule est chargée d analyser

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique.

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique. I INTRODUCTION Les pages de phishing sont l un des problèmes majeurs de sécurité sur internet. La majorité des attaques utilisent des méthodes sophistiquées comme les fausses pages pour tromper les utilisateurs

Plus en détail

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain?

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain? DOSSIER SOLUTION Solution CA Virtual Placement and Balancing Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain? agility made possible La solution automatisée

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans

Plus en détail

(Third-Man Attack) PASCAL BONHEUR PASCAL BONHEUR@YAHOO.FR 4/07/2001. Introduction. 1 Domain Name Server. 2 Commandes DNS. 3 Hacking des serveurs DNS

(Third-Man Attack) PASCAL BONHEUR PASCAL BONHEUR@YAHOO.FR 4/07/2001. Introduction. 1 Domain Name Server. 2 Commandes DNS. 3 Hacking des serveurs DNS Détournement de serveur DNS (Third-Man Attack) PASCAL BONHEUR PASCAL BONHEUR@YAHOO.FR 4/07/2001 Introduction Ce document traite de la possibilité d exploiter le serveur DNS pour pirater certains sites

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

Firewall IDS Architecture. Assurer le contrôle des connexions au. nicolas.hernandez@univ-nantes.fr Sécurité 1

Firewall IDS Architecture. Assurer le contrôle des connexions au. nicolas.hernandez@univ-nantes.fr Sécurité 1 Sécurité Firewall IDS Architecture sécurisée d un réseau Assurer le contrôle des connexions au réseau nicolas.hernandez@univ-nantes.fr Sécurité 1 Sommaire général Mise en oeuvre d une politique de sécurité

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

Notions de sécurités en informatique

Notions de sécurités en informatique Notions de sécurités en informatique Bonjour à tous, voici un article, vous proposant les bases de la sécurité informatique. La sécurité informatique : Vaste sujet, car en matière de sécurité informatique

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

Surveillance de réseau : un élément indispensable de la sécurité informatique

Surveillance de réseau : un élément indispensable de la sécurité informatique Surveillance de réseau : un élément indispensable de la sécurité informatique Livre Blanc Auteur : Daniel Zobel, Responsable Developpement Logiciel, Paessler AG Publication : juillet 2013 PAGE 1 SUR 8

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

11. Evaluation de la qualité des essais

11. Evaluation de la qualité des essais 11. Evaluation de la qualité des essais L évaluation de la qualité méthodologique d un essai thérapeutique est une tâche difficile [117]. L essai thérapeutique contrôlé randomisé est considéré comme étant

Plus en détail

Chapitre 2. Vulnérabilités protocolaires et attaques réseaux M&K HDHILI

Chapitre 2. Vulnérabilités protocolaires et attaques réseaux M&K HDHILI Chapitre 2 Vulnérabilités protocolaires et attaques réseaux 1 Définitions Vulnérabilité: Défaut ou faiblesse d un système dans sa conception, sa mise en œuvre ou son contrôle interne pouvant mener à une

Plus en détail

Sécurité et Firewall

Sécurité et Firewall TP de Réseaux IP pour DESS Sécurité et Firewall Auteurs: Congduc Pham (Université Lyon 1), Mathieu Goutelle (ENS Lyon), Faycal Bouhafs (INRIA) 1 Introduction: les architectures de sécurité, firewall Cette

Plus en détail

SÉCURITÉ INFORMATIQUE AU NIVEAU DES SYSTÈMES DE CONDUITE

SÉCURITÉ INFORMATIQUE AU NIVEAU DES SYSTÈMES DE CONDUITE SÉCURITÉ INFORMATIQUE AU NIVEAU DES SYSTÈMES DE CONDUITE Plus de sécurité pour la gestion de l eau et de l énergie 2 Système de conduite en danger? Éviter les manipulations indésirables Lorsqu'un voleur

Plus en détail

Sécurité. Tendance technologique

Sécurité. Tendance technologique Sécurité Tendance technologique La sécurité englobe les mécanismes de protection des données et des systèmes informatiques contre l accès, l utilisation, la communication, la manipulation ou la destruction

Plus en détail

Sensibilisation à la sécurité informatique

Sensibilisation à la sécurité informatique Sensibilisation à la sécurité informatique Michel Salomon IUT de Belfort-Montbéliard Département d informatique Michel Salomon Sécurité 1 / 25 Sensibilisation à la sécurité informatique Généralités et

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Protection pour site web Sucuri d HostPapa

Protection pour site web Sucuri d HostPapa Protection pour site web Sucuri d HostPapa Prévenez et nettoyez maliciels, listes noires, référencement infecté et autres menaces de votre site web. HostPapa inc. 1 888 959 PAPA [7272] +1 905 315 3455

Plus en détail

Le «data mining», une démarche pour améliorer le ciblage des contrôles

Le «data mining», une démarche pour améliorer le ciblage des contrôles MINISTERE DE L ECONOMIE ET DES FINANCES Le «data mining», une démarche pour améliorer le ciblage des contrôles La lutte contre la fraude aux finances publiques a été renforcée ces dernières années et a

Plus en détail

Bouchekif Abdesselam 11 mars 2012

Bouchekif Abdesselam 11 mars 2012 Expériences sur les données du répertoire de données de UCI avec une boîte à outils Bouchekif Abdesselam 11 mars 2012 Résumé Les dix dernières années ont été témoin de grands progrès réalisés dans le domaine

Plus en détail

Ce qu est le Data Mining

Ce qu est le Data Mining Data Mining 1 Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD

Plus en détail

Classification supervisée de documents

Classification supervisée de documents Classification supervisée de documents 1. Introduction La classification automatique supervisée de document devient nécessaire à cause du volume de documents échangés et stockés sur support électronique.

Plus en détail

Solutions de sécurité de la messagerie Websense. Sécurité de la messagerie

Solutions de sécurité de la messagerie Websense. Sécurité de la messagerie Sécurité de la messagerie Email Security Hosted Email Security Hybrid Email Security Solutions de sécurité de la messagerie Sécurité de la messagerie dans le monde du Web 2.0 La sécurité de la messagerie

Plus en détail

CP - NBS System. La sécurité informatique : focus sur les menaces les plus communes et leurs solutions

CP - NBS System. La sécurité informatique : focus sur les menaces les plus communes et leurs solutions La sécurité informatique : focus sur les menaces les plus communes et leurs solutions Nous avons publié en février un article résumant les principaux risques liés au manque de sécurité des sites internet.

Plus en détail

COURS GENERAL PARTIE 2 APMGroup accredited training material version S1.2/2013 Antoine Breton

COURS GENERAL PARTIE 2 APMGroup accredited training material version S1.2/2013 Antoine Breton PRINCE2 is a registered trade mark of the Cabinet Office United Kingdom. PRINCE2 est une marque déposée du Cabinet Office Royaume Uni. The Swirl logo is a trade mark of the Cabinet Office. COURS GENERAL

Plus en détail

Trusteer Pour la prévention de la fraude bancaire en ligne

Trusteer Pour la prévention de la fraude bancaire en ligne Trusteer Pour la prévention de la fraude bancaire en ligne La solution de référence pour la prévention de la fraude bancaire en ligne Des centaines d institutions financières et des dizaines de millions

Plus en détail

Gestion des incidents de sécurité. Une approche MSSP

Gestion des incidents de sécurité. Une approche MSSP Gestion des incidents de sécurité Une approche MSSP Agenda Présentation du ThreatManagement Center Le rôle d un MSSP dans la supervision de sécurité La gestion d incidents 2 Agenda Présentation du ThreatManagement

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

CHAPITRE 3 : INTERVENTIONS SUR INCIDENTS

CHAPITRE 3 : INTERVENTIONS SUR INCIDENTS CHAPITRE 3 : INTERVENTIONS SUR INCIDENTS CINQ RECOMMANDATIONS ESSENTIELLES 1 CINQ RECOMMANDATIONS ESSENTIELLES CINQ RECOMMANDATIONS ESSENTIELLES BASÉES SUR UNE ANALYSE DES INCIDENTS OBSERVÉS En 2014, le

Plus en détail

CONFIGURATION P 2 P 3 P 3 P 10 P 11 P 13 P 14 P 16

CONFIGURATION P 2 P 3 P 3 P 10 P 11 P 13 P 14 P 16 CONFIGURATION 1 Présentation 2 Topologie du projet 3 Installation 4 Configuration 4.1 Création de la DMZ publique 4.2 Accès vers l Internet 4.3 Publication d Exchange 4.4 Rapports d activité et alertes

Plus en détail

Fiche Technique. Cisco Security Agent

Fiche Technique. Cisco Security Agent Fiche Technique Cisco Security Agent Avec le logiciel de sécurité de point d extrémité Cisco Security Agent (CSA), Cisco offre à ses clients la gamme de solutions de protection la plus complète qui soit

Plus en détail

Systèmes de détection Exemples académiques & commerciaux

Systèmes de détection Exemples académiques & commerciaux Systèmes de détection Exemples académiques & commerciaux Système de détection: Propagation de logiciels malveillants Exemple I: MIT, ICSI & Consentry Jean-Marc Robert, ETS Protection contre les menaces

Plus en détail

L informatique des entrepôts de données

L informatique des entrepôts de données L informatique des entrepôts de données Daniel Lemire SEMAINE 13 L exploration des données 13.1. Présentation de la semaine L exploration de données (ou data mining) est souvent associée à l intelligence

Plus en détail

Les renseignements de sécurité en action :

Les renseignements de sécurité en action : Sponsorisé par LogRhythm Les renseignements de sécurité en action : Un essai de la plate-forme SIEM 2.0 de LogRhythm dédiée Décembre 2012 Un livre blanc de SANS Écrit par : Dave Shackleford L interface

Plus en détail

Gestion des incidents

Gestion des incidents Gestion des incidents Jean-Marc Robert Génie logiciel et des TI Incidents Un incident de sécurité est une violation, ou l imminence d une violation, d une politique de sécurité p.ex., une politique de

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

Apprentissage par méthodes à noyaux en reconnaissance d images

Apprentissage par méthodes à noyaux en reconnaissance d images Apprentissage par méthodes à noyaux en reconnaissance d images Alberto Bietti Table des matières Introduction 2 1 Apprentissage par méthodes à noyaux 2 1.1 Position du problème et motivation..........................

Plus en détail

DATASET / NETREPORT, propose une offre complète de solutions dans les domaines suivants:

DATASET / NETREPORT, propose une offre complète de solutions dans les domaines suivants: Présentation Société DATASET / NETREPORT, propose une offre complète de solutions dans les domaines suivants: Outils d aide à la décision Gamme DATASET Solutions de gestion temps réel du système d information

Plus en détail

Par Mauro Israel coordinateur du Cercle de la Sécurité et des Systèmes d Information. Les frères «Térieur» : Alain et Alex

Par Mauro Israel coordinateur du Cercle de la Sécurité et des Systèmes d Information. Les frères «Térieur» : Alain et Alex Quelques tabous & totems de la sécurité revisités Par Mauro Israel coordinateur du Cercle de la Sécurité et des Systèmes d Information Les frères «Térieur» : Alain et Alex Tabou numéro 2 : Le firewall

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Sécurité : les principaux risques et les moyens de protection associés

Sécurité : les principaux risques et les moyens de protection associés Sécurité : les principaux risques et les moyens de protection associés Les dangers sont très nombreux et divers. De plus, ils évoluent rapidement dans le temps. Néanmoins, les principaux risques pour les

Plus en détail

Analyse de protocoles binaires avec les N-Grams

Analyse de protocoles binaires avec les N-Grams Analyse de protocoles binaires avec les N-Grams N-Gram against the Machine : On the Feasibility of the N-Gram network Analysis for Binary Protocols Thomas LETAN 26 novembre 2012 Objectifs des auteurs :

Plus en détail

Sécurisation du réseau

Sécurisation du réseau Sécurisation du réseau La sécurisation du réseau d entreprise est également une étape primordiale à la sécurisation générale de votre infrastructure. Cette partie a pour but de présenter les fonctionnalités

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

Service On Line : Gestion des Incidents

Service On Line : Gestion des Incidents Service On Line : Gestion des Incidents Guide de l utilisateur VCSTIMELESS Support Client Octobre 07 Préface Le document SoL Guide de l utilisateur explique comment utiliser l application SoL implémentée

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

BitDefender Antispam NeuNet

BitDefender Antispam NeuNet BitDefender Antispam NeuNet Livre blanc Cosoi Alexandru Catalin Researcher BitDefender AntiSpam Laboratory Table des matières 1. Présentation du problème du spam 2. A propos de Neural Networks 3. Nouvelle

Plus en détail

Plan. Les pare-feux (Firewalls) Chapitre II. Introduction. Notions de base - Modèle de référence OSI : 7 couches. Introduction

Plan. Les pare-feux (Firewalls) Chapitre II. Introduction. Notions de base - Modèle de référence OSI : 7 couches. Introduction Plan Introduction Chapitre II Les pare-feux (Firewalls) Licence Appliquée en STIC L2 - option Sécurité des Réseaux Yacine DJEMAIEL ISET Com Notions de base relatives au réseau Définition d un pare-feu

Plus en détail

Audit et Sécurité Informatique

Audit et Sécurité Informatique 1 / 54 Audit et Sécurité Informatique Chap 1: Services, Mécanismes et attaques de sécurité Rhouma Rhouma https://sites.google.com/site/rhoouma Ecole superieure d Economie Numerique 3ème année Licence 2

Plus en détail

Propagation virale sur le Web Le ver BackTrack

Propagation virale sur le Web Le ver BackTrack Propagation virale sur le Web Le ver BackTrack Althes (http://www.althes.fr) Revision 1 - December 2002 Vincent Royer 1. Introduction Au cours de ces dernières années, un certain nombre

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation Premières classifications : apprentissage et évaluation L objectif de ce TP est double : prise en main de la bibliothèque scikit-learn de Python, dédiée à l apprentissage automatique, sensibilisation à

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Technologie et biologie (TB) Discipline : Informatique Première et seconde années Programme d informatique

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

SOMMAIRE SOMMAIRE 7 INTRODUCTION GENERALE...11

SOMMAIRE SOMMAIRE 7 INTRODUCTION GENERALE...11 SOMMAIRE SOMMAIRE 7 INTRODUCTION GENERALE...11 - PARTIE I - Organisation de trésorerie du régime général et principes d optimisation de la régulation des positions de trésorerie à très court terme...15

Plus en détail

Base de connaissances

Base de connaissances Base de connaissances Page 1/14 Sommaire Administration du système... 3 Journalisation pour le débogage... 3 Intellipool Network Monitor requiert-il un serveur web externe?... 3 Comment sauvegarder la

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

Sécurité des réseaux Les attaques

Sécurité des réseaux Les attaques Sécurité des réseaux Les attaques A. Guermouche A. Guermouche Cours 2 : Les attaques 1 Plan 1. Les attaques? 2. Quelques cas concrets DNS : Failles & dangers 3. honeypot A. Guermouche Cours 2 : Les attaques

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Profil du candidat et connaissances techniques à connaître/maîtriser

Profil du candidat et connaissances techniques à connaître/maîtriser Utilisation d algorithmes de deep learning pour la reconnaissance d iris. jonathan.milgram@morpho.com Dans ce cadre, l'unité de recherche et technologie a pour but de maintenir le leadership Au sein de

Plus en détail

Profil de protection d un pare-feu industriel

Profil de protection d un pare-feu industriel Version 1.0 court-terme GTCSI 13 juillet 2015 Avant-propos Dans toute la suite de ce document, l acronyme ToE (Target of Evaluation) désigne le composant qui est l objet de l évaluation. Les passages en

Plus en détail

Industrie des cartes de paiement (PCI) Norme de sécurité des données Récapitulatif des modifications de

Industrie des cartes de paiement (PCI) Norme de sécurité des données Récapitulatif des modifications de Industrie des cartes de paiement (PCI) Norme de sécurité des données Récapitulatif des modifications de la norme PCI DSS entre les versions 2.0 et 3.0 Novembre 2013 Introduction Ce document apporte un

Plus en détail

agility made possible

agility made possible DOSSIER SOLUTION Amélioration de la planification de la capacité à l aide de la gestion des performances applicatives Comment assurer une expérience utilisateur exceptionnelle pour les applications métier

Plus en détail

S U P E R V I S É PA R N. A B R I O U X

S U P E R V I S É PA R N. A B R I O U X Tableau de bord SSI S U P E R V I S É PA R N. A B R I O U X S. B A L S S A L. B O B E T M. H A L L O U M I J. M A N O H A R A N 1 Plan Présentation Méthodologie d élaboration Cas pratique Conclusion Nom

Plus en détail

COURS SYRRES RÉSEAUX SOCIAUX. Jean-Loup Guillaume

COURS SYRRES RÉSEAUX SOCIAUX. Jean-Loup Guillaume COURS SYRRES RÉSEAUX SOCIAUX Jean-Loup Guillaume Le cours http://jlguillaume.free.fr/www/teaching/syrres/ Exemple 1 : Expérience de Milgram Objectif faire transiter une lettre depuis les Nebraska à un

Plus en détail

Le parcours pédagogique Sage Business Intelligence. Utilisateur Niv I BO XI 3.0 WebI pour Sage 1000 2 jours

Le parcours pédagogique Sage Business Intelligence. Utilisateur Niv I BO XI 3.0 WebI pour Sage 1000 2 jours Vous êtes Consultant, Chef de Projets, Directeur des Systèmes d Information, Directeur Administratif et Financier, Optez pour les «formations Produits» Nous vous proposons des formations vous permettant

Plus en détail

DIGITAL NETWORK. Le Idle Host Scan

DIGITAL NETWORK. Le Idle Host Scan DIGITAL NETWORK Siège : 13 chemin de Fardeloup 13600 La Ciotat Siret : 43425494200015 APE : 722 Z www.digital network.org www.dnsi.info Laboratoires : 120 Avenue du Marin Blanc, ZI Les Paluds, 13685 Aubagne

Plus en détail

Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif

Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA INTELLIGENCE Expérience informationnelle

Plus en détail

Attention, menace : le Trojan Bancaire Trojan.Carberp!

Attention, menace : le Trojan Bancaire Trojan.Carberp! Protégez votre univers L aveugle ne craint pas le serpent Attention, menace : le Trojan Bancaire Trojan.Carberp! Attention, menace : le Trojan Bancaire Trojan.Carberp! Voici un exemple de contamination

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

un OuTIl complet POuR l analyse de données d accidents

un OuTIl complet POuR l analyse de données d accidents COMMENT ATTEINDRE L OBJECTIF ZÉRO ACCIDENTS? Un outil complet pour l analyse de données d accidents Avec 1,24 million de victimes par an, les accidents de la route font partie des causes les plus fréquentes

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

SECURIDAY 2013 Cyber War

SECURIDAY 2013 Cyber War Club de la Sécurité Informatique à l INSAT Dans le cadre de la 3ème édition de la journée nationale de la sécurité informatique SECURIDAY 2013 Cyber War SECURINETS Présente Formateurs: 1. Trabelsi NAJET

Plus en détail

LES AVANTAGES DU CLOUD

LES AVANTAGES DU CLOUD 1 INTRODUCTION Toutes les entreprises ont un point en commun : la volonté d accroître leurs revenus et leur productivité. Mais beaucoup d entreprises ne profitent pas des ressources à leur disposition

Plus en détail

Bibliographie. Gestion des risques

Bibliographie. Gestion des risques Sécurité des réseaux informatiques Bernard Cousin Université de Rennes 1 Sécurité des réseaux informatiques 1 Introduction Risques Attaques, services et mécanismes Les attaques Services de sécurité Mécanismes

Plus en détail

Méthodes avancées en décision

Méthodes avancées en décision Méthodes avancées en décision Support vector machines - Chapitre 2 - Principes MRE et MRS Principe MRE. Il s agit de minimiser la fonctionnelle de risque 1 P e (d) = y d(x;w, b) p(x, y) dxdy. 2 La densité

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

PCI (Payment Card Industry) DSS (Data Security Standard )

PCI (Payment Card Industry) DSS (Data Security Standard ) PCI (Payment Card Industry) DSS (Data Security Standard ) Jean-Marc Robert Génie logiciel et des TI PCI-DSS La norme PCI (Payment Card Industry) DSS (Data Security Standard) a été développée dans le but

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Option 2 and Option 5 are correct. 1 point for each correct option. 0 points if more options are selected than required.

Option 2 and Option 5 are correct. 1 point for each correct option. 0 points if more options are selected than required. Quelles sont les deux affirmations vraies relatives à la sécurité du réseau? (Choisissez deux réponses.) Protéger un réseau contre les attaques internes constitue une priorité moins élevée car les employés

Plus en détail

Analyse de données longitudinales continues avec applications

Analyse de données longitudinales continues avec applications Université de Liège Département de Mathématique 29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS 1 Programme 1. Introduction 2. Exemples 3. Méthodes simples 4.

Plus en détail

ENTREPÔTS ET MAGASINS

ENTREPÔTS ET MAGASINS Michel Roux ENTREPÔTS ET MAGASINS Tout ce qu il faut savoir pour concevoir une unité de stockage Cinquième édition, 1995, 2001, 2003, 2008, 2011 ISBN : 978-2-212-55189-1 2 LES PHASES DE SIMULATION DE VALIDATION

Plus en détail