利用Flex自动生成C语言词法分析器

利用Flex自动生成C语言词法分析器Flex介绍C语言词法规则具体实现源代码测试代码实验结果Flex介绍 1975年Mike Lesk和实习生Eric Schmidt设计并实现了一个词法分析器lex（lexical analyzer generator），其中大部分的实现工作是由Schmidt完成的。lex既可以独立使用也可以与Johnson的yacc配合使用。虽然lex运行比较慢并且也不太稳定

玺霄霄

4878人浏览 · 2022-03-29 20:27:06

玺霄霄 · 2022-03-29 20:27:06 发布

利用Flex自动生成C语言词法分析器

Flex介绍
C语言词法规则
具体实现

Flex介绍

1975年Mike Lesk和实习生Eric Schmidt设计并实现了一个词法分析器lex（lexical analyzer generator），其中大部分的实现工作是由Schmidt完成的。lex既可以独立使用也可以与Johnson的yacc配合使用。虽然lex运行比较慢并且也不太稳定，但是应用还是非常广泛。Schmidt后来担任了Google的CEO。大约1987年左右，Lawrence Berkeley实验室的Vern Paxson将使用ratfor语言（一种Fortran扩展语言）编写的一个lex版本翻译成了C版本，并重新命名为flex（Fast Lexical Analyzer Generator）。这个版本比AT&T版本的lex更快更稳定，并使用了Berkeley开源协议，因此取代了原来的lex。
Flex源文件的编写很容易上手，指路lex源文件结构。
在Ubuntu系统直接安装flex的命令为：sudo apt-get install flex

C语言词法规则

以C11为基准，对C语言的词法规则进行简要的描述。
（1）C语言的关键字包括如下单词：
C语言关键词

（2）C语言标识符的定义如下：

（3）C语言整型常量的定义如下：

（4）C语言浮点型常量定义如下：

（5）C语言字符常量定义如下：

（6）C语言字符串字面量定义如下：

（7）C语言运算符和界限符定义如下：

具体实现

源代码

编写flex文件：Scan.l

%{
	#include<stdio.h>
	#include<stdlib.h>
	#include<string.h>
	int num=1; 
	int line=1;
	int col=1; 
%}

keyword auto|break|case|char|const|continue|default|do|double|else|enum|extern|float|for|goto|if|inline|int
		|long|register|return|short|signed|sizeof|static|struct|switch|typedef|union|unsigned|void|volatile|while

identifier ({nondigit}|_)({nondigit}|_|{digit})*
nondigit [a-zA-Z]
digit [0-9]

integer_constant ({decimal_constant}|{octal_constant}|{hexadecimal_constant}){integer_suffix}
decimal_constant {nonzero_digit}{digit}*
octal_constant 0{octal_digit}*
hexadecimal_constant {hexadecimal_prefix}{hexadecimal_digit}+
hexadecimal_prefix 0x|0X
nonzero_digit [1-9]
octal_digit [0-7]
hexadecimal_digit [0-9a-fA-F]
integer_suffix ({unsigned_suffix}{long_suffix})|({unsigned_suffix}{long_long_suffix})|({long_suffix}{unsigned_suffix})|({long_long_suffix}{unsigned_suffix})
unsigned_suffix u|U
long_suffix l|L
long_long_suffix ll|LL

floating_constant {decimal_floating_constant}|{hexadecimal_floating_constant}
decimal_floating_constant {fractional_constant}{exponent_part}{floating_suffix}|{digit_sequence}{exponent_part}{floating_suffix}
hexadecimal_floating_constant {hexadecimal_prefix}{hexadecimal_fractional_constant}{binary_exponent_part}{floating_suffix}|{hexadecimal_prefix}{hexadecimal_digit_sequence}{binary_exponent_part}{floating_suffix}
fractional_constant {digit_sequence}\.{digit_sequence}|{digit_sequence}\.
exponent_part [eE]{sign}{digit_sequence}
sign [+-]
digit_sequence {digit}+
hexadecimal_fractional_constant {hexadecimal_digit_sequence}\.{hexadecimal_digit_sequence}|{hexadecimal_digit_sequence}\.
binary_exponent_part [pP]{sign}{digit_sequence}
hexadecimal_digit_sequence {hexadecimal_digit}+
floating_suffix [flFL]

character_constant [uUL]?\'{c_char_sequence}\'
c_char_sequence {c_char}+
c_char [^\\\'\n]|{escape_sequence}
escape_sequence {simple_escape_sequence}|{octal_escape_sequence}|{hexadecimal_escape_sequence}
octal_escape_sequence \\{octal_digit}{1,3}
hexadecimal_escape_sequence \\x{hexadecimal_digit}{1,2}
simple_escape_sequence \\\'|\\\"|\\\?|\\\\|\\a|\\b|\\f|\\n|\\r|\\t|\\v

string_literal {encoding_prefix}?\"{s_char_sequence}\"
encoding_prefix u8|u|U|L
s_char_sequence {s_char}+
s_char [^\\\'\n]|{escape_sequence}

opt ("+"|"-"|"*"|"/"|"+="|"-="|"*="|"/="|">="|"<="|"=="|">"|"<"|"="|"++"|"--") 
bracket ("("|")"|"["|"]"|"{"|"}"|";"|","|"\'"|"\""|"#") 

%%
\n {++line;col=1;}
{keyword} {printf("[@%d,%d:%d='%s',<'keyword'>,%d:%d]\n",num++,col,col+yyleng,yytext,line,col);col+=yyleng;}
{identifier} {printf("[@%d,%d:%d='%s',<'identifier'>,%d:%d]\n",num++,col,col+yyleng,yytext,line,col);col+=yyleng;} 
{integer_constant} {printf("[@%d,%d:%d='%s',<'integer_constant'>,%d:%d]\n",num++,col,col+yyleng,yytext,line,col);col+=yyleng;}
{floating_constant} {printf("[@%d,%d:%d='%s',<'floating_constant'>,%d:%d]\n",num++,col,col+yyleng,yytext,line,col);col+=yyleng;}
{character_constant} {printf("[@%d,%d:%d='%s',<'character_constant'>,%d:%d]\n",num++,col,col+yyleng,yytext,line,col);col+=yyleng;}
{string_literal} {printf("[@%d,%d:%d='%s',<'string_literal'>,%d:%d]\n",num++,col,col+yyleng,yytext,line,col);col+=yyleng;} 
{bracket} {printf("[@%d,%d:%d='%s',<'bracket'>,%d:%d]\n",num++,col,col+yyleng,yytext,line,col);col+=yyleng;} 
{opt} {printf("[@%d,%d:%d='%s',<'opt'>,%d:%d]\n",num++,col,col+yyleng,yytext,line,col);col+=yyleng;}
[ \t]+ {col+=4;}
. {col++;}

%%
int main(){
	yyin=fopen("test.txt","r");
	yylex();
	return 0;
}
int yywrap(){
	return 1;
}

将上述flex文件生成词法分析程序的命令：flex Scan.l
生成一个名为lex.yy.c的词法分析程序。
编译词法分析程序的命令：gcc lex.yy.c –lfl

测试代码

测试代码1：分析标识符，关键字，字符串

#include<stdio.h>
#include<stdlib.h>

int main(){
	printf("Hello!\n");
	return 0;
}

测试代码2：增加更多的标识符，操作符

#include<stdio.h>
#include<stdlib.h>

int main(){
	int a=9;
	double b=9.9;
	char c='9';
	if(a==9) a*=9;
	for(i=0;i<9;i++)
	{
		b=b-1;
	}
	return 0;
}

实验结果

测试代码一：
测试代码一结果
测试代码二：
测试代码二结果上

测试代码二结果下
在这个输出的token流中，每行为一个token，以@开头的数字表示token的序号，紧接着的xx:xx表示token文本对应的开始列和结束列，“=”后面给出了这个范围之内token的具体文本，“<>”之内表示token的类型，最后一个数字对xx:xx表示起始行和起始列。

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

【Spring Boot 】Spring Boot + HikariCP 连接池使用示例

文章目录示例工具版本HikariCP 依赖HikariCP 配置1. connectionTimeout2. minimumIdle3. maximumPoolSize4. idleTimeout5. maxLifetime6. autoCommitSpring Boot Data + HikariCP + MySQL示例测试应用程序1. 使用 Maven 命令2. 使用 Eclipse3. 使用