DESS TEXTE. Outils informatiques 5. HTML et le protocole HTTP p.1



Documents pareils
Serveurs de noms Protocoles HTTP et FTP

L3 informatique TP n o 2 : Les applications réseau

INTERNET est un RESEAU D ORDINATEURS RELIES ENTRE EUX A L ECHELLE PLANETAIRE. Internet : interconnexion de réseaux (anglais : net = réseau)

SYSTEME DE GESTION DES ENERGIES EWTS EMBEDDED WIRELESS TELEMETRY SYSTEM

(structure des entêtes)

2. MAQUETTAGE DES SOLUTIONS CONSTRUCTIVES. 2.2 Architecture fonctionnelle d un système communicant.

Dans l'épisode précédent

Développement des Systèmes d Information

Réseaux. 1 Généralités. E. Jeandel

Cours CCNA 1. Exercices

GENERALITES. COURS TCP/IP Niveau 1

Internet - Outils. Nicolas Delestre. À partir des cours Outils réseaux de Paul Tavernier et Nicolas Prunier

Intérêt du NAT (Network Address Translation) Administration Réseau Niveau routage. Exemple d Intranet. Principe NAT

RFC 7230 : Hypertext Transfer Protocol (HTTP/1.1): Message Syntax and Routing

HTTP HTTP. IUT1 dpt SRC L Isle d Abeau Jean-françois Berdjugin. Introduction et architecture Messages Authentification Conclusion

Application Web et J2EE

Chapitre : Les Protocoles

WebSSO, synchronisation et contrôle des accès via LDAP

Protocoles Applicatifs

Protection des protocoles

Gilles.Roussel univ-mlv.fr HTTP/1.1 RFC 2068

HTTP 1.1. HyperText Transfer Protocol TCP IP ...

Internet et Programmation!

1 Introduction Propos du document Introduction De HTTP 1.0 à HTTP

II/ Le modèle OSI II.1/ Présentation du modèle OSI(Open Systems Interconnection)

Sécurité des réseaux Firewalls

Présentation du modèle OSI(Open Systems Interconnection)

CONFIGURATION FIREWALL

Administration des ressources informatiques

Internet. Web Sécurité Optimisation

Oléane VPN : Les nouvelles fonctions de gestion de réseaux. Orange Business Services

Mr. B. Benaissa. Centre universitaire Nâama LOGO

Failles XSS : Principes, Catégories Démonstrations, Contre mesures

Introduction. Adresses

NAS 224 Accès distant - Configuration manuelle

Plan. École Supérieure d Économie Électronique. Plan. Chap 9: Composants et systèmes de sécurité. Rhouma Rhouma. 21 Juillet 2014

Services Réseaux - Couche Application. TODARO Cédric

Cours de sécurité. Pare-feux ( Firewalls ) Gérard Florin -CNAM - - Laboratoire CEDRIC -

TD 2 Chapitre 4 : Support des Services et Serveurs. Objectifs : Maîtriser l'exploitation des tables de routage dynamique.

TCP/IP, NAT/PAT et Firewall

SIP. Plan. Introduction Architecture SIP Messages SIP Exemples d établissement de session Enregistrement

Introduction à HTTP. Chapitre HTTP 0.9

DHCP et NAT. Cyril Rabat Master 2 ASR - Info Architecture des réseaux d entreprise

Plan. Programmation Internet Cours 3. Organismes de standardisation

Cisco Certified Network Associate

TP : STATION BLANI 2000 SIMULATION DU RESEAU INFORMATIQUE

Spécialiste Systèmes et Réseaux

Protocoles réseaux. Abréviation de Binary Digit. C'est la plus petite unité d'information (0, 1).

Le filtrage de niveau IP

Préparation au C2I. Année 2011

Cisco Certified Network Associate

1 LE L S S ERV R EURS Si 5

RESEAUX TCP/IP: NOTIONS AVANCEES. Preparé par Alberto EscuderoPascual

Firewall IDS Architecture. Assurer le contrôle des connexions au. Sécurité 1

Outils de l Internet

Figure 1a. Réseau intranet avec pare feu et NAT.

SQUID Configuration et administration d un proxy

Rappels réseaux TCP/IP

Rappel: Le routage dans Internet. Contraintes. Environnement et contraintes. La décision dans IP du routage: - Table de routage:

TIC. Réseau informatique. Historique - 1. Historique - 2. TC - IUT Montpellier Internet et le Web

Installation d un serveur HTTP (Hypertext Transfer Protocol) sous Débian 6

Réseaux et protocoles Damien Nouvel

L3 informatique Réseaux : Configuration d une interface réseau

Activité sur Meteor. Annexe 1 : notion de client-serveur et notion de base de données

RTE Technologies. RTE Geoloc. Configuration avec Proxy ou Firewall

Culture informatique. Cours n 9 : Les réseaux informatiques (suite)

18 TCP Les protocoles de domaines d applications

acpro SEN TR firewall IPTABLES

Autour du web. Une introduction technique Première partie : HTML. Georges-André SILBER Centre de recherche en informatique MINES ParisTech

SERVEUR HTTP Administration d apache

Les formations. Administrateur Systèmes et Réseaux. ENI Ecole Informatique

«Cachez-moi cette page!»

Algorithmique et langages du Web

ECOLE POLYTECHNIQUE DSI. Utilisation des serveurs mandataires («proxy») avec les protocoles d usage courant

Linux sécurité des réseaux

Présentation Internet

Les clés d un réseau privé virtuel (VPN) fonctionnel

FORMATION PcVue. Mise en œuvre de WEBVUE. Journées de formation au logiciel de supervision PcVue 8.1. Lieu : Lycée Pablo Neruda Saint Martin d hères

Introduction. PHP = Personal Home Pages ou PHP Hypertext Preprocessor. Langage de script interprété (non compilé)

L identité numérique. Risques, protection

Configuration Routeur DSL pour Xbox LIVE ou PlayStation-Network

Computer Networking: A Top Down Approach Featuring the Internet, 2 nd edition. Jim Kurose, Keith Ross Addison-Wesley, July ENPC.

Configurer le Serveur avec une adresse IP Statique (INTERFACE :FastEthernet) : et un masque

TER Réseau : Routeur Linux 2 Responsable : Anthony Busson

Firewall. Souvent les routeurs incluent une fonction firewall qui permet une première sécurité pour le réseau.

Le Tunneling DNS. P.Bienaimé X.Delot P.Mazon K.Tagourti A.Yahi A.Zerrouki. Université de Rouen - M2SSI. 24 février 2011

Travaux pratiques Configuration d une carte réseau pour qu elle utilise DHCP dans Windows Vista

Dossier de réalisation d'un serveur DHCP et d'un Agent-Relais SOMMAIRE. I. Principe de fonctionnement du DHCP et d'un Agent-Relais

Réseaux Résumé personnel

Notice d installation des cartes 3360 et 3365

Serveur FTP. 20 décembre. Windows Server 2008R2

INF8007 Langages de script

Fonctionnement et mise en place d un reverse proxy sécurisé avec Apache. Dimitri ségard 8 mai 2011

Réseaux. Moyens de sécurisation. Plan. Evolutions topologiques des réseaux locaux

Network Shutdown Module V3 Extension du Manuel Utilisateur pour architecture Virtualisée Virtual Server de Microsoft

Travaux Pratiques Introduction aux réseaux IP

TR2 : Technologies de l'internet. Chapitre VI. NAT statique et dynamique Overloading (PAT) Overlapping, port Forwarding Serveur Proxy, DMZ

Le scan de vulnérabilité

Réseaux CPL par la pratique

Transcription:

Outils informatiques 5. HTML et le protocole HTTP DESS TEXTE Outils informatiques 5. HTML et le protocole HTTP p.1

Introduction But du cours : récupérer automatiquement des données accessibles sur le web pour en extraire les informations pertinentes. Prérequis à cela : maîtriser les notions que consituent HTML et HTTP Ce chapitre va donc présenter brièvement les réseaux informatiques, et le fonctionnement du W3 dans ce contexte. Outils informatiques 5. HTML et le protocole HTTP p.2

Plan du chapitre 1. HTML et HTTP 2. Cheminement d une requête : a. Analyse d une requête b. Analyse d une réponse 3. Traitement du corps de la réponse : a. Traitement d une image b. Traitement d un lien hypertexte 4. Les différentes couches réseau : a. PC et serveur sur le même sous-réseau b. PC et serveur sur deux sous-réseaux différents Outils informatiques 5. HTML et le protocole HTTP p.3

1. HTML et HTTP HTML : langage utilisant des balises pour représenter la mise en forme de documents. Ce langage est interprété par une application appelée navigateur Web ou arpenteur. HTTP : protocole de communication pour le transfert de documents. La communication se fait entre un client (machine envoyant des requêtes) et un serveur (machine répondant à ces requêtes). Ce protocole est utilisé par les serveurs Web hébergeant des sites internet, dans le but de permettre de télécharger des documents ainsi que la consultation de pages sur l écran du client. Remarque : il faut connaître HTTP pour communiquer avec un serveur Web sans passer par un navigateur (i.e. pour automatiser des requêtes internet). Outils informatiques 5. HTML et le protocole HTTP p.4

2.a Analyse d une requête Soit la requête suivante : http ://hypothetical.ora.com/ Ce qui provoque l envoie du message suivant par le navigateur : GET / HTTP/1.0 Connection : Keep Alive User-Agent : Mozilla/3.0Gold (WinNT;I) Host : hypothetical.ora.com Aspect : image/gif,image/x-xbitmap,image/jpeg,text/html Outils informatiques 5. HTML et le protocole HTTP p.5

2.b Analyse de la réponse La serveur répond au navigateur par le message suivant : HTTP/1.0 200 OK Date : Fri, 04 Oct 2002 10:38:29 GMT Server : Apache/1.1.1 Content-type: text/html Content-length : 327 Last-Modified : Fri, 04 Oct 2002 09:28:12 GMT <title>une page web</title> (...) Outils informatiques 5. HTML et le protocole HTTP p.6

3.a Traitement d une image (1) Lors de l analyse syntaxique du document HTML ainsi parvenue, le navigateur arrive à la ligne suivante : <img src= /images/oreilly_mast.gif > Ce qui provoque l envoie d une seconde requête par le navigateur : GET /images/oreilly_mast.gif HTTP/1.0 Connection : Keep Alive User-Agent : Mozilla/3.0Gold (WinNT;I) Host : hypothetical.ora.com Aspect : image/gif,image/x-xbitmap,image/jpeg,text/html Outils informatiques 5. HTML et le protocole HTTP p.7

3.a Traitement d une image (2) Ce à quoi le serveur répond par : HTTP/1.0 200 OK Date : Fri, 04 Oct 2002 10:38:29 GMT Server : Apache/1.1.1 Content-type: image/gif Content-length : 327 Last-Modified : Fri, 04 Oct 2002 09:28:12 GMT [données du fichier gif] Outils informatiques 5. HTML et le protocole HTTP p.8

3.b Traitement d un lien hypertexte (1) Si l utilisateur clique sur un lient hypertexte tel que : <a href= /example2.html >page intressante</a> Le navigateur va agir de même, et envoyer une requête au serveur : GET /example2.html HTTP/1.0 Connection : Keep Alive User-Agent : Mozilla/3.0Gold (WinNT;I) Host : hypothetical.ora.com Aspect : image/gif,image/x-xbitmap,image/jpeg,text/html Outils informatiques 5. HTML et le protocole HTTP p.9

3.b Traitement d un lien hypertexte (2) Ce à quoi le serveur répond par : HTTP/1.0 200 OK Date : Fri, 04 Oct 2002 10:38:29 GMT Server : Apache/1.1.1 Content-type: text/html Content-length : 327 Last-Modified : Fri, 04 Oct 2002 09:28:12 GMT [nouvelle page html] Outils informatiques 5. HTML et le protocole HTTP p.10

4. Les différentes couches réseau 1 er cas de figure : PC et serveur sur le même sous-réseau : comment navigateur et serveur communiquent - ils via le réseau? quels sont les couches réseau utilisées? (pour nous) ce cas se présente si l on veut afficher la page d accueil du serveur de l université : www.univ-nancy2.fr Outils informatiques 5. HTML et le protocole HTTP p.11

4.a PC et serveur sur le même sous-réseau (1) Réseau 192.168.1 @IP:192.168.1.1 Client W3 @IP : 192.168.1.254 @IP:192.168.218.12 Client W3 Routeur @IP : 192.168.218.254 Serveur www.univ.nancy2;fr port http : 80 Réseau 192.168.218 Outils informatiques 5. HTML et le protocole HTTP p.12

4.a PC et serveur sur le même sous-réseau (2) Les machines sur Internet sont repérées par une adresse IP unique. Une @IP est un quadruplet de nombres sur 8 bits. Les 3 premiers octets réfèrent à l adresse d un réseau, et le dernier octet à l adresse de la machine au sein de ce réseau. Pour éviter d avoir à retenir les adresses IP des machines, on leur associe une chaîne de caractères et le lien entre cette chaîne et l adresse IP est conservée sur un serveur DNS. Outils informatiques 5. HTML et le protocole HTTP p.13

4.a PC et serveur sur le même sous-réseau (3) La communication entre deux machines via un réseau se fait au travers de différentes couches. L application (ici le navigateur) gère un ensemble de couches de niveau supérieur, dans lesquelles un paquet de données P1 correspondant à une requête HTTP est formé, puis passé au système d exploitation pour que ce dernier l envoie vers une machine cible. Le niveau transport prenant en charge la gestion des paquets de données (que faire en cas de perte, etc), reçoit ce paquet P1 (pour HTTP, ce niveau correspond au protocole TCP - Transmission Control Protocol - ). Pour pouvoir réaliser sa mission ce niveau va ajouter au paquet P1 des informations de contrôle, ce qui donnera le paquet P2. Outils informatiques 5. HTML et le protocole HTTP p.14

4.a PC et serveur sur le même sous-réseau (4) C est alors que P2 est transmis à la couche système, qui ajoute de nouvelles informations de contrôle, entre autres les adresses IP de la source et de la cible paquet P3. Enfin, en bas se trouve le niveau physique, assurant l acheminement du paquet de données via le réseau physique à son destinataire (traitement des adresses Ethernet) paquet P4. Outils informatiques 5. HTML et le protocole HTTP p.15

4.a PC et serveur sur le même sous-réseau (5) P4 Ethernet P3 @ethernet IP @IP P2 TCP ports source cible P1 HTTP GET - entêtes Outils informatiques 5. HTML et le protocole HTTP p.16

4.a PC et serveur sur le même sous-réseau (6) Que fait la machine cible après réception de P4? Le processus inverse à lieu, i.e. décapsulations successives des différents paquets par les différentes couches de la machine distante. Ainsi, le serveur récupère le paquet originel P1 et l achemine vers l application adéquate (Apache dans notre exemple). Enfin, le serveur peut traiter la requête qui lui est parvenue, et ensuite envoyer sa réponse via le même procédé. Outils informatiques 5. HTML et le protocole HTTP p.17

4.b PC et serveur sur deux sous-réseaux différents (1) Le processus de communication est identique, à l exception de la dernière étape de recherche de l adresse Ethernet. En effet, dans ce cas de figure, on doit passer par un routeur, effectuant la jonction entre deux sous-réseaux. Le routeur reçoit un paquet de données, le décapsule et consulte sa table de routage pour réacheminer ce paquet vers le bon sous-réseau. Outils informatiques 5. HTML et le protocole HTTP p.18

4.b PC et serveur sur deux sous-réseaux différents (2) Remarque : Il est possible qu une machine n ait pas accès à Internet directement, il arrive qu un pare-feu soit placé à l entrée d un sous-réseau pour le protéger d éventuelles attaques. il se peut que l adresse IP de la machine ne soit pas utilisable sur Internet, car ne faisant pas partie des adresses valides. On recours alors à un serveur mandataire (proxy), prenant en charge l envoie de la requête vers le serveur à la place du client. Outils informatiques 5. HTML et le protocole HTTP p.19

4.b PC et serveur sur deux sous-réseaux différents (3) Les tâches du proxy sont diverses : transférer les requêtes des machines du sous-réseau, filtrer les accès avec l extérieur, conserver en cache des documents afin d économiser les requêtes. Outils informatiques 5. HTML et le protocole HTTP p.20

Conclusion Que doit-on savoir faire pour automatiser des requêtes HTTP? savoir programmer une requête simple ou complexe : accéder à un document et à ses liens, télécharger du texte, exclure les images, passer par le proxy si besoin, pour envoyer des requêtes à un serveur, savoir analyser les entêtes des requêtes et réponses, et le corps des réponses. Pour cela, nous utiliserons les modules Perl, notamment : LWP : :Simple HTML : :LinkExtor Outils informatiques 5. HTML et le protocole HTTP p.21