《编译与反编译技术》—第2章2.5词法分析器的生成器

简介:

本节书摘来自华章出版社《编译与反编译技术》一书中的第2章,第2.5节词法分析器的生成器,作者庞建民,陶红伟,刘晓楠,岳峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.5 词法分析器的生成器
鉴于各种不同的高级程序语言中单词的总体结构大致相同,基本上都可用一组正规式来描述,因此,人们希望构造一个自动生成系统:对于一个给定的高级语言,只要给出用来描述其各类单词词法结构的一组正规表达式,以及识别各类单词时词法分析程序应采取的语义动作,则该系统便可自动产生此语言的词法分析程序。
1975年美国Bell实验室的M.Lesk和Schmidt基于正规式与有限自动机的理论研究,用C语言研制了一个词法分析程序的自动生成工具LEX。对任何高级程序语言,用户只需用正规式描述该语言的各个词法类(这一描述称为LEX的源程序),LEX就可以自动生成该语言的词法分析程序。LEX及其编译系统的作用如图2-29所示。
360_20170524102752190

一般而言,LEX源程序由用“%%”分隔的三部分组成:第一部分为声明,第二部分为识别规则,最后一部分为辅助过程。其书写格式为:
声明部分
%%
识别规则部分
%%
辅助过程部分
其中,声明部分和辅助过程部分是任选的,而识别规则部分是必需的。如果辅助过程部分缺省,则第二个分隔符号“%%”可以省去;但如果无声明部分,第一个分隔符号“%%”不能省去,因为第一个分隔符号是用于指示识别规则部分的开始。下面将对这三部分的内容及其书写格式进行概括介绍。
声明部分包括变量说明、标识符常量说明和正规定义等。正规定义中的名字可在识别规则中用作正规式的成分。其中除了正规定义式之外的声明必须用“%{”和“}%”括起来。
识别规则部分是具有如下形式的语句序列:
P1 { 动作1 }
P2 { 动作2 }

Pn { 动作n }
其中,Pi是一个正规式,描述一种单词模式;动作i是C语言的程序段,表示当一个串匹配模式Pi时,词法分析器应执行的动作。
辅助过程是对识别规则的补充,识别规则部分中某些动作需要调用的过程,如果不是C 语言的库函数,则要在此给出具体的定义。
下面给出一个简单语言的单词符号的LEX源程序例子,其输出单词的类别编码用整数编码表示。
例2.28 下面是识别表2-1中单词符号的LEX源程序。

/*声明部分*/
letter→A∣B∣C∣…∣Z∣a∣b∣c∣…∣z
digit→0∣1∣2∣3∣…∣9
%%
    /*识别规则部分*/ 
    (1) while    {return (1,_);}
    (2) for    {return (2,_l);}
    (3) if    {return (3,_);}
    (4) else    {return (4,_);}
    (5) switch    {return (5,_);}
    (6) case    {return (6,_);}
    (7) (letter|_)(letter|_|digit)*    {yylval = install_id( );
        return(7,yylval);}
    (8) digit (digit)*    {yylval = install_num( );
        return(8,yylval);}
    (9) *    {return (9,_)}
    (10) +    {return (10,_)}
    (11) -    {return (11,_)}
    (12) =    {return (12,_)}
    (13) <    {return (13,_)}
    (14) <=    {return (14,_)}
    (15) = =    {return (15,_)}
    (16);    {return (16,_)}
%% 
    /*辅助过程部分*/
    yylval = install_id( ) {
    …
  

/该过程负责把单词插入符号表并返回指针,yytext 指向该单词的第一个字符,yyleng 给出它的长度。如果该单词已经出现在符号表中,则返回指向该单词所在表项的指针,否则为它创建一个新表项,将单词填入该表项中,并返回指向新表项的指针/

}
install_num( ) {
…
/*类似于上面的过程,但单词是常数*/
}

LEX可以用两种方式来使用:一种是将LEX作为一个单独的工具,用以生成所需的识别程序;另一种是将LEX与语法分析器自动生成工具(如YACC)结合起来使用,以生成一个编译程序的扫描器和语法分析器。

相关文章
《编译与反编译技术实战 》一1.3 语法分析生成器YACC
。YACC(Yet Another Compiler Compiler)是一个经典的语法分析生成器。YACC最初是由AT&T公司的Steven C. Johnson为UNIX操作系统开发的,后来一些兼容的程序如Berkeley YACC、GNU Bison、MKS YACC和Abraxas YACC陆续出现,它们都是在此基础上做了少许改进或者增强,但是基本概念是相同的。
1309 0
|
自然语言处理 前端开发 JavaScript
《编译与反编译技术实战 》一 1.2 词法分析生成器LEX
LEX是LEXical compiler的缩写,是UNIX环境下非常著名的工具,主要功能是生成一个词法分析器的C源码,描述规则采用正则表达式。描述词法分析器的文件*.l经过LEX编译后生成一个lex.yy.c的文件,然后由C编译器编译生成一个词法分析器。
1663 0