tn文本分析语言(四) 实现自然语言计算器-阿里云开发者社区

tn文本分析语言(四) 实现自然语言计算器

2016-11-30 1151

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

tn是desert和tan共同开发的一种用于匹配，转写和抽取文本的语言。解释器使用Python实现，代码不超过1000行。

github地址：https://github.com/ferventdesert/tnpy

前言

本文将利用引擎实现一个自然语言计算器，支持加减乘除和平方的计算。如下面的测试样例：

三平方加上四平方
如果2乘以3大于4的平方且3>8,那么输出5+4,否则输出12
如果今天下雨，则发送微博
3.4的7次方加上五分之一
3.4*2.7
二百八十除以五分之一
三点五乘以三十七
二十七+15*15
十四点五的平方加上八十三除以三点五

基本的思路，是将整个文本，转换为一个Python的表达式，传递给Python的eval函数执行。这是一种取巧的办法，如果需要，可以修改引擎，实现自定义的脚本解析器。

运算符实现

下面的代码定义了计算符，非常容易理解：

#%Include% Rules/cnext
add  = (/加上?|\+|＋/ : /+/) ;
sub  = (/减去?|\-|－/ : /-/);
mul = (/乘以?|\*|×/ : /*/);
div = (/除以?|/|÷/ : ///); 
pow2 = (/的?平方/ : /**2/);
pow3 = (/的?立方/ : /**3/);
pown=  (/的?/ : //) $(digit) (/次方/ : /**/) : $3 $2 $1; 
divpow = $(digit) $(divpow0) $(digit) ;
powx= $(pow2) | $(pow3) | $(pown);
pow = $(digit) $(powx);

#%Include% Rules/cnext 引入了外部的一个规则文件，这个文件定义了中文和数字的表达方法。因此在本规则中，可直接引用cnext文件中定义的规则。
顺便指出，只要保证规则名称一致，通过更换为英语或其他语言的数字表达，就可以在不修改本脚本的情况下方便地让规则支持其他语言的计算功能

逻辑运算符

or = (/或/ : / or /);
and = (/且/ : / and /);
not = (/不是/ : / not /);
equal = (/等于|=/ : /=/);
bigger = (/大于|>/ : />/);
less = (/小于|</ :/</);
noequal = (/不等于/: /!=/);

值得一提的是，我们将逻辑转换成了or and 和not，这是为了能够转写

运算符组合

addsub0=  $(add) | $(sub) ; 
logic0 =$(or) | $(and)  ;
divpow0 = $(mul) | $(div);
equalcheck = $(bigger) |$(less) | $(noequal);
operator= $(addsub0) | $(equalcheck) | $(logic0);

非终结符和终结符

低优先级的表达式可以表示如下：
addsub= $(noterminator) $(operator) $(noterminator);
由于乘除和n次方的的优先级比加减和逻辑运算符优先级高，所以我们将运算符分为两类：
终结符

terminator   = $(digit) | $(ifelse) | $(pow) | $(divpow);

非终结符

#%Order% 28
noterminator = $(terminator) : "eval(m.rstr)" |  $(addsub) : "eval(m.rstr)";

此处需要解释脚本的含义,

m在此处代指前面匹配的实体
m.rstr为m的转写后的字符串
m.mstr为m匹配的字符串
eval是引擎内置的函数，代指对转写后的字符串求值。

例子

三平方加上四平方
匹配路径如下
TODO
最后eval(32+42),结果为5

无法消除的左递归

如果希望支持计算类似'3加5的和乘以3'的表达式，那么terminator表达式需要这样写:

terminator   = $(digit) | $(ifelse) | $(pow) | $(divpow) | $(function)
|   $(noterminator)  $(add) $(noterminator)  $(addresult)
|   $(noterminator) $(sub) $(noterminator)  $(subresult);

但是，注意第二条子表达式
$(noterminator) $(add) $(noterminator) $(addresult)
$(noterminator)又引用了terminator，因此会导致无穷递归。
目前还没有找到合适的方法解决这个问题。

完整的代码

#计算引擎
#尝试解决 三点五乘以八点三的功能

#%Include% Rules/cnext
add  = (/加上?|\+|＋/ : /+/) ;
sub  = (/减去?|\-|－/ : /-/);
mul = (/乘以?|\*|×/ : /*/);
div = (/除以?|/|÷/ : ///); 
pow2 = (/的?平方/ : /**2/);
pow3 = (/的?立方/ : /**3/);
pown=  (/的?/ : //) $(digit) (/次方/ : /**/) : $3 $2 $1; 


result= (/的?结果/);
addresult0= (/的?和/);
subresult0= (/的?差/);
addresult = $(result) $(addresult0);
subresult = $(result) $(subresult0);
addsub0=  $(add) | $(sub) ; 
logic0 =$(or) | $(and)  ;
divpow0 = $(mul) | $(div);
equalcheck = $(bigger) |$(less) | $(noequal);

operator= $(addsub0) | $(equalcheck) | $(logic0);

divpow = $(digit) $(divpow0) $(digit) ;
powx= $(pow2) | $(pow3) | $(pown);
pow = $(digit) $(powx); 

#functions
print = (/打印/ : /print/);
send = (/发送/ : /send/);
functions = $(print) | $(send);
function = $(functions) $(noterminator) : "invoke(m[0].rstr,m[1].rstr)";


addsub= $(not) $(noterminator)
    | $(noterminator) $(operator) $(noterminator);
    
terminator   = $(digit) | $(ifelse) | $(pow) | $(divpow) | $(function);



#暂时无法分析 3加5的和乘以3，因为会造成循环递归，从左向右推导不可行
#   | ) $(add) $(noterminator)  $(addresult)
#   | $(noterminator) $(sub) $(noterminator)  $(subresult);

#%Order% 28
noterminator = $(terminator) : "eval(m.rstr)" |  $(addsub) : "eval(m.rstr)";


or = (/或/ : / or /);
and = (/且/ : / and /);
not = (/不是/ : / not /);
equal = (/等于|=/ : /=/);
bigger = (/大于|>/ : />/);
less = (/小于|</ :/</);
noequal = (/不等于/: /!=/);

ifelse =  (/如果/) $(vu) (/,那么/) $(noterminator) (/,否则/) $(noterminator) : "check(m[1].rstr,m[3].rstr,m[5].rstr)";

作者：热情的沙漠
出处：http://www.cnblogs.com/buptzym/
本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

分类: tn文本分析引擎

本文转自FerventDesert博客园博客，原文链接：http://www.cnblogs.com/buptzym/p/5361121.html，如需转载请自行联系原作者

tn文本分析语言(四) 实现自然语言计算器

前言

运算符实现

逻辑运算符

运算符组合

非终结符和终结符

例子

无法消除的左递归

完整的代码

热门文章

最新文章

相关电子书

相关实验场景