Visualisation pour l'analyse de Trac Réseau et la Détection d'intrusion. Erwan Le Malécot

Visualisation pour l'analyse de Trac Réseau et la Détection d'intrusion Erwan Le Malécot 2006

Table des matières 1 Introduction 2 2 Visualisation 2 2.1 Représentation des données.......................... 2 2.2 Attaques possibles............................... 3 2.2.1 Attaques contre l'utilisateur...................... 3 2.2.2 Attaques contre le système...................... 4 3 Visualisation du trac réseau 4 3.1 Centrée sur les hôtes.............................. 4 3.2 Centrée sur un réseau............................. 5 3.3 Entre les réseaux................................ 7 3.4 Autres prototypes................................ 8 4 Traitement des données 9 4.1 Pré-traitement................................. 10 4.2 Post-traitement................................. 12 5 Conclusion 12 1

1 Introduction De plus en plus de services sont proposés par le biais de réseaux informatiques, par conséquent, on assiste à une explosion du nombre de machines connectées à de tels réseaux. Cela signie aussi un accroissement du nombre de cibles potentielles pour des personnes malicieuses. En eet, les réseaux informatiques peuvent être la cible d'une grande variété d'attaques. Citons notamment : dénis de service, "spoong", attaques de type "man in the middle", exploitations de failles de sécurité, botnets, virus,... Dans ce cadre, une solution est d'essayer de prévenir ces attaques à l'aide de logiciels ou matériels spéciques. Mais, cela n'est pas toujours susant et ces techniques sont souvent complexes à mettre en place. L'analyse du trac réseau et les techniques de détection d'intrusions associées complètent les techniques de prévention dans la lutte contre les attaques. Malheureusement, la quantité de données à analyser tend à devenir considérable et il est alors dicile d'en extraire les informations signicatives. La recherche est très active dans le domaine de l'exploration de données pour tenter de résoudre ce problème. Mais, les solutions étudiées sont essentiellement basées sur les capacités des machines plutôt que sur celles des humains qui interagissent avec elles. Une autre approche est de présenter l'information et les données d'une manière visuelle pour tirer parti des capacités naturelles des êtres humains à reconnaître des motifs. De plus, en permettant une interaction avec cette représentation visuelle des données, il est possible d'aner le traitement de ces données en se concentrant par exemple sur un aspect qui semble important (ltrage). Ainsi, nous allons nous intéresser plus particulièrement à l'application de ces différentes techniques de visualisation à l'analyse de trac réseau en vue de détecter des anomalies et des intrusions. Nous verrons tout d'abord quelques aspects généraux sur la visualisation d'informations. Nous nous intéresserons ensuite aux diérentes recherches eectuées sur la représentation du trac réseau et enn, nous traiterons de l'utilisation de la visualisation après pré-traitement de l'information, notamment par les systèmes de détection d'intrusions (IDS), et de la possibilité d'un post-traitement pour augmenter progressivement l'ecacité des systèmes de visualisation. 2 Visualisation 2.1 Représentation des données Il existe de nombreuses techniques pour exploiter et représenter visuellement des ensembles de données. Le choix de telle ou telle technique est guidé par le type des données mais aussi par la tâche que l'on veut accomplir avec ces données. B. Shneiderman [21] propose une classication des méthodes de visualisation basée sur ces deux critères. Il fournit aussi quelques conseils utiles à la réalisation d'interfaces graphiques avancées dont le fameux mantra : "Overview rst, zoom and lter, then details-on-demand". En ce qui concerne la classication, B. Shneiderman distingue sept types de données (données à 1, 2 ou 3 dimensions, données temporelles, données multi-dimensionnelles, 2

arbres et réseaux) et sept tâches (vue d'ensemble, zoom, ltrage, détails à la demande, mise en évidence de relations, historique, extraction) réalisables à l'aide d'un système de visualisation d'information. Les techniques de visualisation sont réparties dans ces diérentes catégories et sont mises en relation avec des prototypes existants. Il est donc possible de vérier concrétement leur mise en application. D'autres classications ont été proposées, dont [8] par E. H. Chi qui s'avère être très complète. L'approche utilisée dans cet article est relativement novatrice car la classication repose non seulement sur le type des données mais aussi sur les étapes de traitement pour aboutir à la visualisation nale de ces données. Lors de la réalisation pratique d'un système de visualisation, on traite souvent des données appartenant à plusieurs des catégories énoncées et on souhaite aussi pouvoir eectuer plusieurs tâches. Il faut donc combiner harmonieusement les techniques proposées. On peut noter à ce propos les travaux de J. Heer et al. [13] qui développent un "toolkit" pour faciliter l'élaboration de systèmes de visualisation d'information. 2.2 Attaques possibles Nous nous intéressons à des systèmes de visualisation réalisés dans le domaine de la sécurité informatique. Dans ce cadre, il est primordial de prendre en compte les attaques possibles que pourrait subir le système de visualisation. Ces attaques peuvent viser le système en lui même mais aussi les capacités de l'utilisateur nal. [9] essaye de mettre en garde contre ces problèmes et propose une synthèse des diérentes attaques possibles contre un système de visualisation d'information. 2.2.1 Attaques contre l'utilisateur Les êtres humains sont des cibles potentielles car ayant des capacités limitées d'analyse, d'interprétation et de perception vis à vis de l'information. Les attaquants peuvent ainsi essayer de saturer ces capacités en modiant les caractéristiques des informations présentées par le système : Attaques contre la mémoire : la quantité d'information que peut retenir un être humain à court terme est limitée. Attaques contre les capacités d'interprétation : les systèmes de visualisation d'information nécessitent une vigilance constante de l'utilisateur. L'attaquant peut tenter de détourner cette attention un court instant ou au contraire surcharger l'utilisateur en lui demandant d'être trop vigilant, tout cela dans le but de lui faire manquer un élément important. Attaques contre la perception visuelle : il s'agit de perturber la perception visuelle de l'utilisateur pour modier sa représentation interne de l'information. Attaques des capacités motrices : l'attaquant tente de faire perdre du temps à l'utilisateur et à augmenter sa frustration en le forcant à eectuer des actions supplémentaires. Attaques contre des individus spéciques : l'attaquant cherche à exploiter des caractéristiques de l'utilisateur comme une décience visuelle dans la diérentiation 3

de certaines couleurs. Les attaques contre l'utilisateur reposent sur des attaques inuençant la façon dont l'information est visualisée. 2.2.2 Attaques contre le système Les systèmes de visualisation d'information sont sensibles aux attaques classiques comme les dénis de service ou la corruption des données. Mais, ils sont aussi sujets à des attaques plus spéciques : Attaques sur le traitement : dans ce cas, ce sont les algorithmes utilisé pour traiter et acher la représentation des informations qui sont ciblés. Attaques sur la visualisation : les concepteurs de système de visualisation d'information sont ammenés à faire des choix notamment à cause l'espace limité (l'écran) dont ils disposent pour présenter l'information. On peut citer par exemple les attaques utilisant l'occlusion ou l'injection de données bruitant la représentation nale. 3 Visualisation du trac réseau Ici, nous considérons uniquement des systèmes de visualisation qui utilisent des données extraites d'un réseau informatique. Traditionnellement, les administrateurs systèmes qui gèrent un tel réseau placent des sondes et capturent ainsi le trac brut qui circule sur ce réseau. Ensuite, soit ils achent directement ces données de manière textuelle avec par exemple des outils comme tcpdump [4], soit ces données sont envoyées vers des outils de traitement pour pouvoir ensuite être exploitées. De même, les systèmes de visualisation peuvent être classés en deux catégories, soit ils travaillent directement sur les données capturées sur le réseau, soit sur des données pré-traitées. Dans cette partie, nous nous intéresserons plus particulièrement à la première catégorie. Nous pourrions tenter de classier les systèmes en fonction des techniques de visualisation qu'ils utilisent. Mais il est dicile d'aboutir en utilisant ce critère à cause de la diversité de ces techniques et du fait qu'un prototype utilise souvent plusieurs techniques combinées. Nous avons plutôt choisi d'exploiter le fait que tous les prototypes se basent sur des données réseau et donc de les regrouper en fonction du point de vue dans lequel ils placent l'utilisateur par rapport au réseau. 3.1 Centrée sur les hôtes EtherApe [2] est un outil libre qui permet de visualiser l'activité entre diérents hôtes de manière graphique. Les hôtes sont représentés par des n uds placés en cercle. L'épaisseur des liens entre les n uds représente l'activité observée entre les diérents hôtes. EtherApe reconnaît plusieurs protocoles notamment IP et TCP. Ainsi, il est possible d'acher les protocoles utilisés entre les hôtes via un codage couleur des liens. A partir de cette vue, l'utilisateur peut sélectionner les hôtes qui lui paraissent intéressants 4

et acher des données plus détaillées à leur sujet. Il peut aussi ltrer les données à visualiser. Cet outil est très bien adapté pour la visualisation de l'activité entre un petit nombre d'hôtes mais lorsque celui-ci devient plus conséquent, l'achage devient assez confus. R. F. Erbacher [11] propose aussi un système de visualisation centrée sur les hôtes d'un réseau. Celui-ci est orienté vers la gestion des ressources du réseau et notamment de la bande passante disponible sur diérents liens. Mais les principes proposés pour le système de visualisation peuvent aussi être utilisés dans une optique de sécurité, notamment pour détecter les tentatives de déni de service. Ainsi, ce système est basé sur l'utilisation de glyphes dont les attributs correspondent aux caractéristiques de bande passante voulues par l'administrateur du réseau. Les hôtes sont représentés par des glyphes circulaires (n uds) et les liens par des glyphes semblables à des èches épaisses. A chaque n ud correspondent deux glyphes, un pour le trac entrant et un pour le trac sortant. La largeur des bords du glyphe représente la bande passante maximale du lien (bord plus épais pour les connexions à 100Mb/s que pour les connexions à 10Mb/s). L'utilisation eective de la bande passante pour le lien est codée par la couleur de l'intérieur du glyphe. D'autres informations sur les hôtes comme le nombre d'utilisateurs connectés ou la charge système peuvent être codées sur les glyphes circulaires. Ainsi, ce système de visualisation propose une vision globale de la charge eective d'un réseau par rapport à sa capacité. Les deux prototypes précédents sont centrés sur les relations entres les diérents hôtes. [12] adopte une autre approche et propose un prototype pour visualiser les interactions entre le trac réseau et les diérents processus en activité sur un hôte. Pour l'instant, le prototype ne permet de visualiser que les données relatives à un hôte unique mais les auteurs prévoient de l'étendre pour qu'il puisse gérer plusieurs hôtes. 3.2 Centrée sur un réseau Souvent, les administrateurs systèmes doivent gérer des réseaux informatiques assez conséquents et sont plutôt intéressés par une vision globale de l'activité de leurs réseaux et surtout par les intéractions de ces réseaux avec le reste du monde. NVisionIP [17] est un système de visualisation qui correspond à cette demande. Il repose sur l'exploitation de données de type NetFlow (enregistrements qui représentent le trac cumulé entre 2 hôtes). NVisionIP propose 3 niveaux de visualisation (Figure 1) : Galaxy view : cette vue permet de visualiser l'état d'un réseau de classe B sur un plan. Chaque hôte est representé par un point sur ce plan. Les hôtes sont placés à partir de leur adresse IP, l'avant dernier octet de l'adresse détermine l'abscisse du point représentatif et le dernier octet l'ordonnée de ce point. Les points sont colorés suivant une caractéristique choisie par l'utilisateur. Small multiple view : elle correspond à un zoom à partir de la vue précédente. La selection d'une zone sur la "galaxy view" provoque l'ouverture d'une nouvelle fenêtre présentant des informations plus détaillées sur les hôtes de cette zone. Machine view : la selection d'un hôte dans la "small multiple view" permet de visualiser des informations détaillées à propos de cet hôte. Notamment, des statistiques 5

Fig. 1 Les diérentes vues du système NVisionIP sur le trac engendré et reçu. Il est aussi possible de consulter l'enregistrement NetFlow correspondant. En complément, l'utilisateur peut eectuer un ltrage des données et sélectionner les hôtes à acher sur les diérentes vues en fonction de critères comme les ports utilisés, l'adresse IP,... Ce prototype permet de repérer visuellement certaines anomalies comme par exemple des scans de ports, des tentatives de dénis de service, certains hôtes compromis. Il est centré sur le réseau, en revanche, les relations de ce réseau avec les hôtes extérieurs ne sont pas explicitement représentées. VISUAL [7] est un autre système de visualisation centré sur le réseau surveillé ("home network"). Pour concevoir ce système, les auteurs ont d'abord interrogé plusieurs personnes dont le travail est en relation avec la sécurité de réseaux informatiques. Ils ont ainsi dégagé les priorités d'achage suivantes : Utilisation de marqueurs (symboles) placés de manière statistique pour les hôtes externes (à cause du nombre élevé d'adresses IP possibles). Utilisation d'une grille organisée pour les hôtes internes. Nécessité de montrer les communications entre l'extérieur et le réseau surveillé. Acher la quantité de trac échangé entre les hôtes. Acher les protocoles et ports utilisés dans les communications. Pouvoir rejouer les événements intéressants. A partir de ces six points, ils ont conçu le système suivant (Figure 2) : le réseau surveillé est visualisé par une grille dont chaque case représente un hôte. Les hôtes extérieurs 6

au réseau surveillé sont représentés par des marqueurs disposés autour de la grille. Les connexions entre hôtes internes et hôtes externes sont symbolisées par des segments joignant les marqueurs et les cases correspondants. La nature du trac est codée dans la couleur de ces liens et la quantité de trac dans la taille des marqueurs. VISUAL propose des fonctionnalités de ltrage pour n'acher que les hôtes vériant certains critères. Il est aussi possible d'accéder à des informations détaillées sur chacun des hôtes en sélectionnant le marqueur correspondant. Fig. 2 VISUAL On peut noter que NVisionIP et VISUAL respectent le mantra énoncé par B. Shneiderman [21]. 3.3 Entre les réseaux La littérature comporte peu d'articles relatifs à de tels systèmes de visualisation. S. T. Teoh et al. [22] proposent un article dont le but est plus de montrer l'ecacité des techniques de visualisation par rapport aux méthodes traditionnelles en s'appuyant sur des exemples que de présenter en profondeur des systèmes de visualisation. Ainsi, il introduit trois systèmes et leur utilisation sur des cas concrets à titre d'illustration. Un de ces systèmes s'intéresse notamment aux problèmes liés au routage. Pour gérer le routage des paquets sur Internet, les hôtes sont groupés en fonction de leurs adresses IP (parties d'adresses similaires) pour former ce que l'on appelle des systèmes autonomes. Il existe plusieurs formes de modications de la constitution de ces systèmes autonomes. Ces modications peuvent avoir lieu suite à un changement de propriétaire d'un groupe d'adresse, une opération légale sur le réseau, des pannes de réseau ou d'attaques. [22] 7

propose donc de visualiser ces événements pour faciliter la détection d'activité malicieuse. Les adresses IP des diérents hôtes sont chacune "mappées" sur un pixel en utilisant une décomposition en quadtree (qui permet de grouper les hôtes ayant des adresses IP similaires). Les systèmes autonomes sont quant à eux mappé le long des quatre bords de la zone de visualisation. Les événements sont alors représentés par des segments reliant la plage d'ip aectée et les systèmes autonomes concernés. La couleur des liens permet de coder le type d'événement. Ce système de visualisation a été utilisé avec succès pour analyser un problème dans le routage vers l'adresse IP de Google. 3.4 Autres prototypes Cette catégorie regroupe les systèmes de visualisation qui ne se basent pas sur des notions de topologie de réseau et qui ne cherchent pas à visualiser de liens entre diérents hôtes. PortVis [20] correspond à ce cas et a justement été conçu dans l'optique de fournir le moins d'information possible sur la structure du réseau analysé. En eet, des informations comme l'architecture d'un réseau ou sa taille peuvent être sensibles. Les administrateurs de réseaux informatiques échangent souvent des données relatives à la sécurité pour, par exemple, partager des scénarios d'attaques ou demander l'aide de spécialistes sur des anomalies. Dans ce cas, ils peuvent ne pas vouloir diuser trop d'informations sur leurs réseaux. La plupart des systèmes de visualisation se basent au moins sur l'adresse IP des hôtes, ce qui constitue déjà une divulgation importante d'information. Pour pallier à ce problème, PortVis utilise un groupe d'attributs du trac réseau très restreint cumulés heure par heure pour chaque port (protocole, port, heure, nombre de sessions, nombre d'adresses sources diérentes, nombre d'adresses destinations diérentes, nombre de paires d'adresses source/destination, nombre de pays sources diérents). Il repose essentiellement sur l'analyse des protocoles IP, TCP et UDP. L'achage principal (Figure 3) est constitué d'une grille 256 x 256 dont chaque point représente un port. L'axe vertical correspond au numéro de port modulo 256 et l'axe horizontal correspond à la valeur entière du numéro de port divisé par 256. La couleur du point permet de représenter une information parmi celles listées précédemment. Autour de cette grille, l'utilisateur dispose d'autres outils de visualisation complémentaires. Lorsqu'il sélectionne une zone sur l'achage principal, des informations plus détaillées sur les ports choisis sont achées dans une partie de l'application. A partir de cette vue détaillée il est alors possible de sélectionner un port particulier et d'acher graphiquement toutes les informations disponibles pour ce port. L'utilisateur a aussi accès à une ligne de temps qui ache progressivement les valeurs des diérents attributs. Enn, il peut aussi choisir les diérentes couleurs utilisées sur la partie principale via une zone achant un gradient de couleur. G. Conti et al. [10] introduisent aussi un système de visualisation ne s'appuyant pas sur la topologie du réseau. Initialement, le système a été conçu pour acher et comparer des données en format binaire. Dans l'article, les auteurs l'utilisent pour analyser le contenu de paquets réseaux. Chaque ligne de la zone de visualisation principale correspond à un paquet, les lignes délant au fur et à mesure. Quatre modes graphiques d'achage sont proposés, tracer chaque bit de donnée par un pixel monochrome, re- 8

Fig. 3 PortVis présenter chaque octet par un pixel en niveau de gris, ou représenter chaque groupe de 3 octets par un pixel coloré (RGB 24-bit). Le dernier mode permet de visualiser la fréquence des octets dans le paquet. Ainsi, chaque pixel est coloré suivant la fréquence d'apparition de l'octet correspondant dans le paquet. On peut aussi demander de colorer un octet particulier dans les paquets pour vérier si il est présent ou non. Un des atouts majeurs de ce système de visualisation est qu'il permet d'observer le contenu d'un très grand nombre de paquets simultanément (de l'ordre de 1000 paquets) et ainsi de pouvoir les comparer ou les examiner à la recherche de parties malicieuses. 4 Traitement des données Certains systèmes de visualisation n'exploitent pas directement les données brutes issues du trac réseau mais se positionnent après d'autres systèmes qui eectuent un prétraitement sur ces données. De même, il existe des articles qui proposent des systèmes exploitant les sorties de systèmes de visualisation (post-traitement). Ce sont ces diérents systèmes que nous allons présenter successivement dans cette partie. 9

4.1 Pré-traitement Le pré-traitement est souvent eectué par l'intermédiaire d'un système de détection d'intrusions. Une catégorie d'ids se base sur l'analyse du trac réseau. Dès qu'ils localisent une anomalie ou des paquets suspects, ils génèrent une alerte et enregistrent les données ayant généré cette alerte. Un des problèmes majeurs rencontré avec ce type de système est le taux de faux positifs qui est souvent extrêmement élevé (taux d'alertes qui ne correspondent pas à une tentative d'intrusion). Dans ce contexte, des techniques de visualisation peuvent être utilisées pour aider les administrateurs systèmes à faire le tri parmi les alertes. [14] propose un système de visualisation basé sur les alertes générées par l'ids libre Snort [3]. Il est constitué de deux matrices 2D représentant les adresses IP des hôtes. Sur la première matrice, l'ordonnée correspond au premier octet de l'adresse IP et l'abscisse au second octet. Cette matrice permet donc d'avoir une vision globale du réseau Internet. Sur la seconde matrice, l'ordonnée correspond au troisième octet de l'adresse IP et l'abscisse au dernier octet. Cela permet d'avoir une vision plus locale. Chaque pixel des matrices est coloré si les hôtes correspondants sont impliqués dans des alertes. La couleur dépend de la numérotation de l'alerte dans la base de l'ids. Comme il est parfois dicile de distinguer la couleur d'un pixel, les auteurs ont choisi de diviser les deux zones de visualisation en cases de taille plus importante qu'ils colorent avec la couleur de l'alerte la plus représentée dans chaque case. Deux histogrammes par matrice (un sur le côté gauche, et un en dessous) montrent le nombre relatif d'alertes par groupe d'adresses IP. Ainsi, ce système de visualisation permet de visualiser la proximité dans l'espace des hôtes concernés par des alertes. En revanche, l'aspect corrélation temporelle des alertes n'est pas réellement représenté. Le "spinning cube of potential doom" de S. Lau [18] est un autre système de visualisation se basant sur les données collectées par un IDS (Bro [1]). Cet IDS permet d'enregistrer toutes les connexions TCP établies ainsi que toutes les tentatives de connexion. Pour acher ces données, S. Lau utilise un cube 3D (Figure 4). L'axe des abscisses correspond à l'espace des adresses IP du réseau local, l'axe des cotes à l'espace global des adresses IP et l'axe des ordonnées représente les numéros de port. Chaque connexion TCP (tentative ou succès) est achée par un point. Ce point est blanc pour une connexion ayant réussi. Il est coloré suivant le numéro de port si la connexion est incomplète (tentative). En eet, les connexions incomplètes correspondent souvent à des scans de ports, la coloration permet donc de mettre en valeur de tels comportements. Ainsi, les scans de ports apparaissent comme des lignes colorées sur le systèmes de visualisation. Une ligne verticale correspond au scan d'un hôte unique à la recherche d'un port ouvert, une ligne horizontale correpond à un scan du réseau local sur un port particulier. Le "spinning cube of potential doom" permet donc de repérer facilement un type d'attaque en visualisant des données issues d'un IDS. L'autre intérêt de ce système est qu'il exploite de manière ecace la 3D alors que la plupart des systèmes existant reposent sur une visualisation 2D. IDtk [15] est un autre système de visualisation utilisant un modèle 3D. Il permet soit d'exploiter le trac réseau TCP brut, soit d'exploiter les alertes générées par l'ids 10

Fig. 4 Le "spinning cube of potential doom" Snort. IDtk est basé sur l'utilisation de glyphes dont les caractéristiques permettent de représenter les diérents attributs des données d'entrée. Ainsi, ces attributs peuvent être mappés sur les coordonnées des glyphes, sur leur couleur et sur leur taille. En plus de ces associations classiques, ce système de visualisation permet aussi de représenter des informations dans la forme des glyphes. En eet, les glyphes utilisés sont des "superquadrics", des objets 3D dont la rondeur dans les directions longitudinales et latitudinaires peut être modiée pour donner des formes allant du cube à la sphère en passant par des intermédiaires rappelant des étoiles. Le principal intérêt de IDtk est de permettre à l'utilisateur de choisir lui-même les diérentes associations. Par exemple, lors d'études avec des groupes d'utilisateurs sur des données issues de l'ids Snort, quatre mappages pour les coordonnées des glyphes se sont révélés très populaires : Adresse IP destination, classication de l'alerte, date : ce mappage permet de visualiser si un hôte local provoque des alertes de même type et de maniére répétée dans le temps. Adresse IP source, adresse IP destination, classication de l'alerte : ce type d'association permet de visualiser les relations entre les attaquants et les hôtes ciblés. Adresse IP source, adresse IP destination, date : il a les mêmes avantages que le mappage précédent. Adresse IP source, adresse IP destination, port destination : ce mappage permet de visualiser les relations entre les attaquants et les services en activité sur les hôtes ciblés. 11

Ainsi, chaque utilisateur peut créer son système de visualisation personnalisé pour traiter les problèmes qui l'intéressent. Certains systèmes de visualisation exploitent des données provenant d'autres outils que les IDS. Notamment, [6] s'intéresse à la visualisation de données extraites des logs d'un serveur web (Thttpd [5]) an de détecter des attaques provenant de vers essayant de compromettre le serveur. Plus récemment, C. P. Lee et al. [19] proposent un système de visualisation associant les données extraites des logs d'un rewall à celles fournies par un IDS. Ces deux approches se limitent à l'analyse du comportement d'un hôte du réseau. 4.2 Post-traitement Les systèmes de visualisation permettent de repérer des motifs et des relations à partir des données. K. Lakkaraju et al. [16] s'intéressent à ce qui se passe après la découverte de tels motifs. Ils proposent d'étendre le système de visualisation NVisionIP (se référer à la partie 3.2) pour faciliter la création de règles symboliques à partir des motifs visuels repérés par l'utilisateur. Ces règles symboliques sont ensuite utilisées pour rechercher automatiquement les motifs correspondants dans les données. À partir des actions de l'utilisateur sur le système de visualisation et des zones qu'il sélectionne sur les diérentes vues, un système annexe appelé Closing-The-Loop génère des règles qui constituent des contraintes sur l'adresse IP des hôtes, sur les ports et les protocoles utilisés. Ces règles sont de la forme A.B.<ip1>.<ip2>, <portr>, <protr> avec : A.B. : les deux premiers octets de l'adresse IP du réseau surveillé. <ip1> : contrainte sur le sous-réseau, par exemple <10-20>. <ip2> : contrainte sur les hôtes, par exemple <100-254>. <portr> : contraite sur les ports, par exemple <0-1023>. <protr> : contrainte sur les protocoles, par exemple <6>. Dans chaque cas, <any> est utilisé lorsqu'il n'y a pas de contrainte. Par exemple si l'utilisateur sélectionne un groupe d'hôtes sur la vue "galaxy view" de NVisionIP, la règle générée sera de la forme A.B.<i-j>.<n-m>, <any>, <any>. Toutes les règles créées sont organisées en arbre que l'utilisateur peut parcourir pour sélectionner celles qu'il souhaite sauvegarder pour usage ultérieur. En eet, elles peuvent par exemple être utilisées pour ltrer le trac intéressant avant l'arrivée au niveau du système de visualisation. 5 Conclusion L'application de la visualisation à la détection d'intrusion et à l'analyse de trac réseau est un domaine de recherche relativement récent. Des prototypes ont été proposés qui démontrent certains avantages qu'ont les systèmes de visualisation sur les méthodes traditionnelles notamment en ce qui concerne la recherche de relations au sein des données. La plupart des prototypes se basent sur une visualisation 2D car plus simple à appréhender par l'utilisateur. Certains font le choix de la 3D, mais, ils sont alors souvent confrontés à des problèmes d'occlusion au niveau de l'achage ou à une désorientation 12

de l'utilisateur qui perd ses repères au fur et à mesure de l'utilisation du système. Il faut donc poursuivre l'exploration des techniques de visualisation 3D pour pouvoir les appliquer ecacement au problème qui nous intéresse. En outre, les prototypes actuels utilisent souvent les particularités de l'adressage IPv4 pour la construction du système de visualisation. Or, le protocole IPv6 qui, à terme, remplacera IPv4 est basé sur un plan d'adressage diérent. Il est donc nécessaire de prévoir des systèmes de visualisation utilisables aussi sur du trac réseau utilisant IPv6. Enn, la visualisation est actuellement aussi utilisée en combinaison avec d'autres systèmes tels que les IDS qui eectuent un pré-traitement des données réseaux. D'autres outils (rewall, proxy applicatif,...) peuvent sûrement être combinés de manière nouvelle avec des techniques de visualisation pour augmenter leur ecacité. Les prototypes actuels ne se concentrent souvent que sur un unique aspect de la sécurité des réseaux informatiques et ne permettent donc, par la visualisation, que de détecter un nombre limité de types d'attaques. Dans le cadre du stage, nous essayerons de créer un système de visualisation permettant de surveiller le trac généré par un réseau de petite taille (quelques réseaux de classe C). Un maximum de types d'attaques doit pouvoir être détecté de manière simple via ce système de visualisation an qu'il puisse être utilisé par un administrateur réseau en substitution de ses outils classiques et non pas sporadiquement pour certaines tâches particulières comme c'est le cas actuellement. 13

Références [1] Bro. http://bro-ids.org. [2] Etherape. http://etherape.sourceforge.net. [3] Snort. http://www.snort.org. [4] Tcpdump. http://www.tcpdump.org. [5] Thttpd. http://www.acme.com. [6] Stefan Axelsson. Visualization for intrusion detection : Hooking the worm. In The proceedings of the 8th European Symposium on Research in Computer Security (ESORICS 2003), volume 2808 of LNCS, Gjøvik, Norway, 1315 October 2003. Springer Verlag. [7] Robert Ball, Glenn A. Fink, and Chris North. Home-centric visualization of network trac for security administration. In VizSEC/DMSEC '04 : Proceedings of the 2004 ACM workshop on Visualization and data mining for computer security, pages 55 64, New York, NY, USA, 2004. ACM Press. [8] Ed H. Chi. A taxonomy of visualization techniques using the data state reference model. In INFOVIS '00 : Proceedings of the IEEE Symposium on Information Vizualization 2000, page 69, Washington, DC, USA, 2000. IEEE Computer Society. [9] Gregory Conti, Mustaque Ahamad, and John Stasko. Attacking information visualization system usability overloading and deceiving the human. In SOUPS '05 : Proceedings of the 2005 symposium on Usable privacy and security, pages 89100, New York, NY, USA, 2005. ACM Press. [10] Gregory Conti, Julian Grizzard, Mustaque Ahamad, and Henry Owen. Visual exploration of malicious network objects using semantic zoom, interactive encoding and dynamic queries. In VIZSEC '05 : Proceedings of the IEEE Workshops on Visualization for Computer Security (VizSec'05), page 10, Washington, DC, USA, 2005. IEEE Computer Society. [11] R. Erbacher. Visual trac monitoring and evaluation. In Proceedings of the Conference on Internet Performance and Control of Network System II, pages 153160, 2001. [12] Glenn A. Fink, Paul Muessig, and Chris North. Visual correlation of host processes and network trac. In VIZSEC '05 : Proceedings of the IEEE Workshops on Visualization for Computer Security (VizSec'05), page 2, Washington, DC, USA, 2005. IEEE Computer Society. [13] Jerey Heer, Stuart K. Card, and James A. Landay. prefuse : a toolkit for interactive information visualization. In CHI '05 : Proceedings of the SIGCHI conference on Human factors in computing systems, pages 421430, New York, NY, USA, 2005. ACM Press. [14] Hideki Koike, Kazuhiro Ohno, and Kanba Koizumi. Visualizing cyber attacks using ip matrix. In VIZSEC '05 : Proceedings of the IEEE Workshops on Visualization 14

for Computer Security (VizSec'05), page 11, Washington, DC, USA, 2005. IEEE Computer Society. [15] Anita Komlodi, Penny Rheingans, Utkarsha Ayachit, John R. Goodall, and Amit Joshi. A user-centered look at glyph-based security visualization. In VIZSEC '05 : Proceedings of the IEEE Workshops on Visualization for Computer Security (Viz- Sec'05), page 3, Washington, DC, USA, 2005. IEEE Computer Society. [16] Kiran Lakkaraju, Ratna Bearavolu, Adam Slagell, William Yurcik, and Stephen North. Closing-the-loop in nvisionip : Integrating discovery and search in security visualizations. In VIZSEC '05 : Proceedings of the IEEE Workshops on Visualization for Computer Security (VizSec'05), page 9, Washington, DC, USA, 2005. IEEE Computer Society. [17] Kiran Lakkaraju, William Yurcik, and Adam J. Lee. Nvisionip : netow visualizations of system state for security situational awareness. In VizSEC/DMSEC '04 : Proceedings of the 2004 ACM workshop on Visualization and data mining for computer security, pages 6572, New York, NY, USA, 2004. ACM Press. [18] Stephen Lau. The spinning cube of potential doom. Commun. ACM, 47(6) :2526, 2004. [19] Chris P. Lee, Jason Trost, Nicholas Gibbs, Raheem Beyah, and John A. Copeland. Visual rewall : Real-time network security monito. In VIZSEC '05 : Proceedings of the IEEE Workshops on Visualization for Computer Security (VizSec'05), page 16, Washington, DC, USA, 2005. IEEE Computer Society. [20] Jonathan McPherson, Kwan-Liu Ma, Paul Krystosk, Tony Bartoletti, and Marvin Christensen. Portvis : a tool for port-based detection of security events. In Viz- SEC/DMSEC '04 : Proceedings of the 2004 ACM workshop on Visualization and data mining for computer security, pages 7381, New York, NY, USA, 2004. ACM Press. [21] Ben Shneiderman. The eyes have it : A task by data type taxonomy for information visualizations. In VL, pages 336343, 1996. [22] Soon Tee Teoh, Kwan-Liu Ma, Soon Felix Wu, and T. J. Jankun-Kelly. Detecting aws and intruders with visual data analysis. IEEE Comput. Graph. Appl., 24(5) :2735, 2004. 15