Utilisation d'un générateur. L'interface de l'analyseur lexicale. Diérents générateurs. Le code engendré dans le case de jex

Documents pareils
Rappel. Analyse de Données Structurées - Cours 12. Un langage avec des déclaration locales. Exemple d'un programme

Suivant les langages de programmation, modules plus avancés : modules imbriqués modules paramétrés par des modules (foncteurs)

LES TYPES DE DONNÉES DU LANGAGE PASCAL

1/ Présentation de SQL Server :

Les chaînes de caractères

Interpréteur d algèbre relationnelle

Cours 1 : Introduction. Langages objets. but du module. contrôle des connaissances. Pourquoi Java? présentation du module. Présentation de Java

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Recherche dans un tableau

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Plateforme PAYZEN. Définition de Web-services

SOMMAIRE. Travailler avec les requêtes... 3

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

Utilisation d objets : String et ArrayList

Chapitre 10. Les interfaces Comparable et Comparator 1

Définition des Webservices Ordre de paiement par . Version 1.0

«Stage découverte» Une semaine en entreprise Le livret Bienvenue chez XXXX

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Cours de Programmation 2

Création d'un questionnaire (sondage)

Leica Application Suite

Introduction au langage C

Généralités sur le Langage Java et éléments syntaxiques.

Licence Bio Informatique Année Premiers pas. Exercice 1 Hello World parce qu il faut bien commencer par quelque chose...

Éléments d informatique Cours 3 La programmation structurée en langage C L instruction de contrôle if

Vers l'ordinateur quantique

INF2015 Développement de logiciels dans un environnement Agile. Examen intra 20 février :30 à 20:30

Programmation Orientée Objet Java

Structure d un programme et Compilation Notions de classe et d objet Syntaxe

INF 232: Langages et Automates. Travaux Dirigés. Université Joseph Fourier, Université Grenoble 1 Licence Sciences et Technologies

Théorie de la Programmation

TP 1. Prise en main du langage Python

Cours Informatique Master STEP

LA RECHERCHE DOCUMENTAIRE

Langage et Concepts de ProgrammationOrientée-Objet 1 / 40

STAGE IREM 0- Premiers pas en Python

TABLEAU CROISE DYNAMIQUE

TP, première séquence d exercices.

Machines virtuelles fonctionnelles (suite) Compilation ML Java

Présentation du langage et premières fonctions

SSTIC Désobfuscation automatique de binaires. Alexandre Gazet. Yoann Guillot. Et autres idyles bucoliques...

Créer une base de données

Titre. SAP BusinessObjects. - 1 er semestre CONSEIL, SOLUTIONS DE TRANSFORMATION ET SERVICES IT

CA 3000 CA 3000 PROGRAMMATION PAR MINITEL

TD 1 - Transmission en bande de passe

LibreOffice Calc : introduction aux tableaux croisés dynamiques

UNIVERSITÉ DU QUÉBEC À MONTRÉAL. MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE DE LA MAÎTRlSE EN INFORMATIQUE PAR FRANCK GOUDJO

Représentation d un entier en base b

Programme et calendrier niveau 1 :

Guide de prise en main du logiciel Port. Version 1.2

Le Langage De Description De Données(LDD)

Génie Logiciel avec Ada. 4 février 2013

Analyse de sécurité de logiciels système par typage statique

STAGE ENTREPRISE. Chers Parents,

TP Contraintes - Triggers

Organisation Gestion du temps. Participation Notes et résumés Etudes et examens

DÉPARTEMENT D'ÉTUDES PERSANES GUIDE PEDAGOGIQUE ÉTUDIANTS NON-SPÉCIALISTES

Cours: Administration d'une Base de Données


Traduction des Langages : Le Compilateur Micro Java

ACTIVITÉ DE PROGRAMMATION

1. Structure d'un programme FORTRAN 95

Gestion des Clés. Pr Belkhir Abdelkader. 10/04/2013 Pr BELKHIR Abdelkader

UE Programmation Impérative Licence 2ème Année

Algorithmique et Programmation, IMA

Premier cours d informatique

Créer un publipostage avec Word 2007.

Programmer en JAVA. par Tama

Information aux patients et à leurs proches. Espace médiation. Lieu d écoute et de dialogue pour les patients et leurs proches

Procédure de sauvegarde - Cobian Backup

Initiation à l algorithmique

Introduction à JDBC. Accès aux bases de données en Java

Trier les ventes (sales order) avec Vtiger CRM

Titre. SAP BusinessObjects. - 2 ème semestre CONSEIL, SOLUTIONS DE TRANSFORMATION ET SERVICES IT

Travaux pratiques avec RapidMiner

Cours Excel : les bases (bases, texte)

1. Qu'est-ce que SQL? La maintenance des bases de données Les manipulations des bases de données... 5

Pascal Weber - Expert en organisation

Plan du cours Cours théoriques. 29 septembre 2014

Formations 2015 Bureautique

1 TD 2 : Construction d'une chier Acrobat et envoi par

Logiciel Libre Cours 3 Fondements: Génie Logiciel

- Solutions Complètes pour vous Simplifier l'edi Simplicité et Efficacité Votre Prestataire WEB@EDI

TD3: tableaux avancées, première classe et chaînes

Plan. Exemple: Application bancaire. Introduction. OCL Object Constraint Language Le langage de contraintes d'uml

R01 Import de données

Cours d initiation à la programmation en C++ Johann Cuenin

1 Description générale de VISFIELD

Centre CPGE TSI - Safi 2010/2011. Algorithmique et programmation :

Ligne 34. Château-Landon / Egreville Melun

Initiation à la programmation en Python

Info0101 Intro. à l'algorithmique et à la programmation. Cours 3. Le langage Java

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

Chapitre 1 : La gestion dynamique de la mémoire

Manuel d'installation

Transcription:

Analyse Lexicale Rappel : Objectif de l'analyse lexicale Ralf Treinen Lire le texte d'entrée, et faire un premier traitement en vue d'une simplication pour les étapes suivantes : Découpage de l'entrée en lexèmes (des mots élémentaires) Université Paris Diderot UFR Informatique Institut de Recherche en Informatique Fondamentale treinen@pps.univ-paris-diderot.fr 3 février 2016 Classer les lexèmes identiés, création de jetons Interpréter les lexèmes quand pertinent, par exemple transformer une suite de chires en un entier Abstraire l'entrée : ignorer des détails non pertinents pour la suite (espaces, commentaires....) c Ralf Treinen 2015, 2016 Analyse Lexicale Analyse Lexicale Spécication d'une analyse lexicale Implémenter une analyse lexicale Dénition des catégories lexicales diérentes : expressions régulières Dénition de la stratégie : chercher le mot le plus long ou le plus court? comment résoudre des ambiguïtés? La stratégie est souvent imposée par des outils. Dénir le type des jetons produits avec leurs arguments éventuels. Soit écrire un programme (Java ou autre) à la main, basé sur un automate ni : discuté au dernier cours. Les premiers compilateurs étaient eectivement écrits de cette façon (compilateur du langage FORTRAN, Backus et al. 1957 : 18 personnes-années). Soit faire engendrer un analyseur lexicale à partir d'une spécication (ce cours). C'est la technique utilisée pour l'écriture des compilateurs modernes.

Analyse Lexicale Analyse Lexicale Utilisation d'un générateur L'interface de l'analyseur lexicale Code On pourrait imaginer que l'analyse lexicale va créer une liste Java avec tous les jetons créés lors de l'analyse. Problème : cette liste risque d'être très longue. Spéc. Générateur Code Compilateur Exécutable Normalement, la phase suivante de l'analyse a seulement besoin de lire les jetons une fois dans l'ordre. Pour ces raisons, l'analyse lexicale crée les jetons un après l'autre à la demande : fonction qui renvoie le jeton suivant. Code Diérents générateurs Le code engendré dans le case de jex Existent pour presque tous les langages de programmation. Le premier générateur était lex, publié en 1975 par Mike Lesk et Eric Schmidt. Engendre du code en C. Successeur : ex, 1987. Les générateurs modernes sont souvent issus de ex. Nous utilisons ici un générateur pour Java : jex. Les générateurs pour des autres langages de programmation sont très similaires. Une classe pour l'analyseur lexicale, le nom de la classe peut être déni dans la spécication (dans nos exemples : Lexer). La création d'un objet de cette classe (un analyseur) prend en argument un objet qui représente le ot d'entrée, par exemple un chier, ou l'entrée standard. Il y a une méthode pour demander le jeton suivant. Le nom de cette méthode, et le type des jetons, peuvent être dénis dans la spécication.

La spécication La partie Options et Déclarations Trois parties, séparées par des lignes : code utilisateur options et déclarations règles lexicales Code utilisateur : copié simplement au début du chier engendré (avant la dénition de la classe) partie souvent vide (sauf commentaires, et import...) Options : commencent avec le symbole %. Parmi les options les plus importantes : %class nom : donne le nom de la classe engendrée. %public : la classe engendrée est publique %type t : le type de résultat de la fonction yylex. %unicode : accepte des caractères Unicode en entrée de l'analyse lexicale (recommandé) %line : compte lignes pendant l'analyse lexicale (disponible en yyline). %column : compte colonnes pendant l'analyse lexicale (disponible en yycolumn). %state s : Déclaration de l'état s (voir plus tard) La partie Options et Déclarations La partie Options et Déclarations Code entre %{ et % (peut être sur plusieurs lignes) : copié au début de la classe engendré ce code a donc accès aux champs de la classe (par exemple, yyline, yycolumn) Code entre %eofval{ et %eofval : code exécuté quand l'analyse lexicale arrive à la n de l'entrée (défaut : null). Macros : système de dénitions d'expressions régulières mettre les mots entre apostrophes " et " pour utiliser une expression régulières préalablement dénie, par exemple du nom r : {r. classes de caractères, par exemple [a-z] quelque classes de caractère prédénies, par exemple [:letter:], [:digit:], [:uppercase:], [:lowercase:].

La partie Règles Lexicales Le premier exemple Séquence de expression-régulière { code-java dans le cas le plus simple, le code java est un return... Règles d'exécution : on cherche le lexeme le plus long possible, et on applique l'action de la première expression régulières qui s'applique. Analyse lexicale pour des expressions arithmétiques comme vu la dernière fois. Petite diérence au premier exemple : les entiers ne contiennent pas d'exposant. Dénition des classes pour les Symboles (type de jetons), puis pour les jetons éventuellement avec des arguments. Le chier de spécication pour jflex. Un petit programme principal pour tester. Utilisation de jex Fichier Sym.java p u b l i c enum Sym { INT, IDENT, PARG, PARD, MULT, PLUS ;.java.jex jex.java.java javac.class p u b l i c S t r i n g s t r ( ) { s w i t c h ( t h i s ) { c a s e INT : r e t u r n "INT" ; c a s e IDENT : r e t u r n "IDENT" ; c a s e PARG: r e t u r n "PARG" ; c a s e PARD: r e t u r n "PARD" ; c a s e MULT: r e t u r n "MULT" ; c a s e PLUS : r e t u r n "PLUS" ; d e f a u l t : r e t u r n " i m p o s s i b l e " ;

Fichier Token.java I c l a s s Token { p r o t e c t e d Sym symbol ; p u b l i c Token (Sym s ) { symbol=s ; p u b l i c Sym symbol ( ) { r e t u r n symbol ; p u b l i c S t r i n g s t r ( ) { r e t u r n ( symbol. s t r ( ) ) ; c l a s s StringToken e x t e n d s Token { p r i v a t e S t r i n g v a l u e ; p u b l i c StringToken (Sym c, S t r i n g s ) { s u p e r ( c ) ; v a l u e=s ; Fichier Token.java II p u b l i c S t r i n g s t r ( ) { r e t u r n ( symbol. s t r ( ) + ' ( ' + v a l u e + ' ) ' ) ; c l a s s IntToken e x t e n d s Token { p r i v a t e i n t v a l u e ; p u b l i c IntToken (Sym c, i n t i ) { s u p e r ( c ) ; v a l u e=i ; p u b l i c S t r i n g s t r ( ) { r e t u r n ( symbol. s t r ( ) + ' ( ' + v a l u e + ' ) ' ) ; Fichier arith.flex I %p u b l i c %c l a s s L e x e r %u n i c o d e %t y p e Token %{ p r i v a t e Token token (Sym t y p e ) { r e t u r n new Token ( t y p e ) ; p r i v a t e StringToken token (Sym type, S t r i n g v a l u e ) { r e t u r n new StringToken ( type, v a l u e ) ; p r i v a t e IntToken token (Sym type, i n t v a l u e ) { r e t u r n new IntToken ( type, v a l u e ) ; % Fichier arith.flex II EspaceChar = [ \n\ r \ f \ t ] Ch = [0 9] Le = [ a za Z ] {Ch+ { r e t u r n token (Sym. INT, I n t e g e r. p a r s e I n t ( y y t e x t ( ) ) ) ; {Le ({ Le { Ch) { r e t u r n token (Sym. IDENT, y y t e x t ( ) ) ; " ( " { r e t u r n token (Sym.PARG) ; " ) " { r e t u r n token (Sym.PARD) ; " " { r e t u r n token (Sym.MULT) ; "+" { r e t u r n token (Sym. PLUS ) ; { EspaceChar+ {

Fichier Test.java Ce que JFlex fait pour vous i m p o r t j a v a. i o. ; c l a s s Test { p u b l i c s t a t i c v o i d main ( S t r i n g [ ] a r g s ) t h r o w s E x c e p t i o n { F i l e i n p u t = new F i l e ( a r g s [ 0 ] ) ; Reader r e a d e r = new F i l e R e a d e r ( i n p u t ) ; L e x e r l e x e r = new L e x e r ( r e a d e r ) ; Token t ; do { t=l e x e r. y y l e x ( ) ; i f ( t!= n u l l ) { System. out. p r i n t l n ( t. s t r ( ) ) ; w h i l e ( t!= n u l l ) ; Création des classes de caractères : tous les caractères qui ne sont jamais distingués par les expressions régulières sont groupés dans la même classe. Les classes crées doivent être disjointes. Exemple : expressions régulières : "end" [a-z]* Quatre classes de caractères disjointes : [e], [n], [d], [a-cf-mo-z] Ce que JFlex fait pour vous Les états de l'analyseur lexical Création d'un automate non-déterministe pour l'union de toutes les expressions régulières. Déterminiser l'automate (et éliminer les ɛ-transitions). Minimiser l'automate. On peut demander à jflex de montrer ces trois automates (option -dot, visualiser les automates avec xdot par exemple) Par défaut (comme sur le premier exemple), votre analyseur lexical a un seul état. Il peut être utile d'avoir plusieurs états - dans chacque état, Flex peut utiliser des expressions régulières diérentes. Pour en avoir plusieurs : les déclarer à l'aide de %state (sauf YYINITIAL) mettre toutes les règles dans le contexte d'un état dans les actions : changer d'état à l'aide de yybegin. pas confondre les états de Flex, avec les états de l'automate ni obtenu des expressions régulières

Pourquoi utiliser plusieurs états? Reconnaître les commentaires (simplié) Un premier exemple sont les commentaires : avec une expression régulières comme "/*".* "*/" on a un problème quand il y a plusieurs commentaires dans le texte (pourquoi?) Dans ce cas on veut on fait trouver le mot le plus court décrit par l'expression régulière. Cela peut être simulé en utilisant deux états. %t y p e Token EspaceChar = [ \n\ r \ f \ t ] L e t t e r = [ a za Z ] %s t a t e INCOMMENT <YYINITIAL> { { L e t t e r + { r e t u r n token (Sym. IDENT, y y t e x t ( ) ) ; { EspaceChar { "/ " { y y b e g i n (INCOMMENT) ; <INCOMMENT> { " /" { y y b e g i n ( YYINITIAL ) ;. { Reconnaître les commentaires Les états de Flex dans l'exemple des commentaires {EspaceChar YYINITIAL est l'état par défaut /* Il est important que la dernière règle s'applique à un mot de longueur 1 seulement (c.-à-d. expression régulière., et pas.+) start YYINITAL INCOMMENT. */ {Letter+ return token(...)

Exemple : découper un mot en plusieurs parties Nouvelle version de arith.flex I Retour à notre premier exemple : on souhaite maintenant aussi reconnaître des entiers avec exposant (756e2, par exemple). On utilise deux états : quand on trouve un symbole e après une séquence de chires on stocke la valeur entière trouvée (devant le e) dans une variable, puis on va dans un deuxième état pour lire exposant. %p u b l i c %c l a s s L e x e r %t y p e Token %u n i c o d e %{ p r i v a t e Token token (Sym t y p e ) { r e t u r n new Token ( t y p e ) ; p r i v a t e StringToken token (Sym type, S t r i n g v a l u e ) { r e t u r n new StringToken ( type, v a l u e ) ; p r i v a t e IntToken token (Sym type, i n t v a l u e ) { r e t u r n new IntToken ( type, v a l u e ) ; i n t i n t b u f f =0; Nouvelle version de arith.flex II p r i v a t e S t r i n g chop ( S t r i n g s ) { r e t u r n ( s. s u b s t r i n g ( 0, s. l e n g t h () 1)); p r i v a t e i n t expo ( i n t base, i n t ex ) { i n t r e s u l t=base ; f o r ( i n t i = 1 ; i <=ex ; i ++) { r e s u l t=r e s u l t 1 0 ; r e t u r n r e s u l t ; % EspaceChar = [ \n\ r \ f \ t ] Ch = [0 9] Le = [ a za Z ] %s t a t e EXPONENT Nouvelle version de arith.flex III <YYINITIAL> { {Ch+ { r e t u r n token (Sym. INT, I n t e g e r. p a r s e I n t ( y y t e x t ( ) ) ) ; {Le ({ Le { Ch) { r e t u r n token (Sym. IDENT, y y t e x t ( ) ) ; " ( " { r e t u r n token (Sym.PARG) ; " ) " { r e t u r n token (Sym.PARD) ; " " { r e t u r n token (Sym.MULT) ; "+" { r e t u r n token (Sym. PLUS ) ; { EspaceChar+ { {Ch+ " e " { i n t b u f f=i n t e g e r. p a r s e I n t ( chop ( y y t e x t ( ) ) ) ; y y b e g i n (EXPONENT) ; <EXPONENT> { {Ch+ { y y b e g i n ( YYINITIAL ) ; r e t u r n ( token (Sym. INT,

Mots clefs d'un langage de programmation Attention à l'ordre des règles Solution naïve : une règle par mot clefs. %t y p e Token EspaceChar = [ \n\ r \ f \ t ] L e t t e r = [ a za Z ] " b e g i n " { r e t u r n token (Sym. BEGIN) " end " { r e t u r n token (Sym.END) " c l a s s " { r e t u r n token (Sym. CLASS) { L e t t e r + { r e t u r n token (Sym. IDENT, y y t e x t ( ) ) ; { EspaceChar { Entrée : beg begin beginner Premier appel à yylex() : seulement la quatrième règle s'applique token IDENT. Deuxième appel à yylex() : les règles (2) et (4) s'appliquent au même lexeme begin, c'est donc la première parmi ces deux qui gagne token BEGIN. Troisième appel à yylex() : les règles (2) et (4) s'appliquent mais la dernière reconnaît un lexeme plus long token IDENT. Mais regarder la taille de l'automate engendré! Contrôler la taille de l'automate Comment reconnaître les mots clefs sans catégories dédiées? Techniques utilisés par le générateurs : Utiliser des classes de caractères au lieu dans la représentation de l'automate. Minimiser l'automate engendré à partir des expressions régulières. dans la spécication : Éviter de créer une nouvelle classe lexicale pour chaque mot clef (Java : 46 mots clefs.) En Java (et pareil dans les autres langages de programmation) : tous les mots clefs sont des séquences de lettres en minuscules. Mettre une seule catégorie pour les identicateurs. Dans l'action associé, on cherche (par ex. dans une table de hachage) si le lexeme est un mot clefs, et crée un jeton en fonction.

Tables de hachage : pour faire quoi? Tables de hachage : comment ça fonnctionne Représenter des fonctions partielles nies f : D A D B Cas d'usage : Le domaine potentiel D A est très grand ou même inni ; par contre f est dénie seulement pour un petit nombre de valeurs. (1) On souhaite un coût mémoire plus au moins linéaire dans la taille du domaine plus la taille du co-domaine de f. (2) On souhaite une complexité constante pour accéder à la valeur de la fonction appliquée à un argument. (3) Fonctions modiables : possibilité d'ajouter ou de supprimer des paires (argument, résultat) Les tableaux répondent aux objectifs 2 (complexité constante) et 3 (fonctions modiables), à part du fait qu'il faudrait utiliser des valeurs d'un type D A en tant d'indices. On utilise une fonction de hachage h : D A int pour mapper les arguments de la fonction f vers des entiers (indices du tableau). Cela nous permet aussi de répondre à l'objectif 1 : la fonction de hachage h est non-injective, et on s'arrange pour que l'image de h soit un intervalle [0,..., d 1]. Le tableau peut donc avoir la taille d. Tables de hachage : le problème des conits Table de hachage avec listes chaînées On ne peut pas exclure des conits de la fonction de hachage : x y et h(x) = h(y), même si on essaye de les éviter par un bon choix de la fonction de hachage. Pour gérer les conits, les entrées du tableau ne sont pas des valeurs de D B, mais encore des fonctions partielles D A D B. Ces fonctions devront avoir un domaine vraiment petit (quelques éléments seulement), on peut donc les représenter par une liste d'association par exemple. Jorge Stol/Wikimedia, CC-Attribution-Share Alike

Le chier keys.flex I i m p o r t j a v a. u t i l. HashMap ; c l a s s Keys e x t e n d s HashMap<S t r i n g, Sym> { p u b l i c Keys ( ) { s u p e r ( ) ; t h i s. put ( " end ",Sym.END) ; t h i s. put ( " b e g i n ",Sym. BEGIN ) ; t h i s. put ( " c l a s s ",Sym. CLASS ) ; %p u b l i c %t y p e Token %c l a s s L e x e r %u n i c o d e EspaceChar = [ \n\ r \ f \ t ] L e t t e r = [ a za Z ] Le chier keys.flex II %{ p r i v a t e Keys k e y s = new Keys ( ) ; p r i v a t e Token token (Sym t y p e ) { r e t u r n new Token ( t y p e ) ; p r i v a t e Token token (Sym sym, S t r i n g v a l u e ) { Sym s = k e y s. g e t ( v a l u e ) ; i f ( s == n u l l ) { / not a keyword / r e t u r n new StringToken ( sym, v a l u e ) ; e l s e { / keyword / r e t u r n new Token ( s ) ; % { L e t t e r + { r e t u r n token (Sym. IDENT, y y t e x t ( ) ) ; { EspaceChar { Tutorat 2ème semestre 2015/2016 Jour Heure Salle Tuteur Lundi 12h-14h 436C Abderrahmane MEDADJELIA Mardi 12h30-14h30 443C Colin GONZALEZ Mercredi 12h-14h 548C Omar CHEBIB EL-ACHI Jeudi 12h-14h 557C Eric UZENAT Vendredi 11h45-13h45 531C Antoine HUCHET