tn文本分析语言(四) 实现自然语言计算器

简介:

tn是desert和tan共同开发的一种用于匹配,转写和抽取文本的语言。解释器使用Python实现,代码不超过1000行。

github地址:https://github.com/ferventdesert/tnpy

前言

本文将利用引擎实现一个自然语言计算器,支持加减乘除和平方的计算。如下面的测试样例:

三平方加上四平方
如果2乘以3大于4的平方且3>8,那么输出5+4,否则输出12
如果今天下雨,则发送微博
3.4的7次方加上五分之一
3.4*2.7
二百八十除以五分之一
三点五乘以三十七
二十七+15*15
十四点五的平方加上八十三除以三点五

基本的思路,是将整个文本,转换为一个Python的表达式,传递给Python的eval函数执行。这是一种取巧的办法,如果需要,可以修改引擎,实现自定义的脚本解析器。

运算符实现

下面的代码定义了计算符,非常容易理解:

#%Include% Rules/cnext
add  = (/加上?|\+|/ : /+/) ;
sub  = (/减去?|\-|/ : /-/);
mul = (/乘以?|\*|×/ : /*/);
div = (/除以?|/|÷/ : ///); 
pow2 = (/的?平方/ : /**2/);
pow3 = (/的?立方/ : /**3/);
pown=  (/的?/ : //) $(digit) (/次方/ : /**/) : $3 $2 $1; 
divpow = $(digit) $(divpow0) $(digit) ;
powx= $(pow2) | $(pow3) | $(pown);
pow = $(digit) $(powx); 

#%Include% Rules/cnext 引入了外部的一个规则文件,这个文件定义了中文和数字的表达方法。因此在本规则中,可直接引用cnext文件中定义的规则。
顺便指出,只要保证规则名称一致,通过更换为英语或其他语言的数字表达,就可以在不修改本脚本的情况下方便地让规则支持其他语言的计算功能

逻辑运算符

or = (// : / or /);
and = (// : / and /);
not = (/不是/ : / not /);
equal = (/等于|=/ : /=/);
bigger = (/大于|>/ : />/);
less = (/小于|</ :/</);
noequal = (/不等于/: /!=/);

值得一提的是,我们将逻辑转换成了or and 和not, 这是为了能够转写

运算符组合

addsub0=  $(add) | $(sub) ; 
logic0 =$(or) | $(and)  ;
divpow0 = $(mul) | $(div);
equalcheck = $(bigger) |$(less) | $(noequal);
operator= $(addsub0) | $(equalcheck) | $(logic0);

非终结符和终结符

低优先级的表达式可以表示如下:
addsub= $(noterminator) $(operator) $(noterminator);
由于乘除和n次方的的优先级比加减和逻辑运算符优先级高,所以我们将运算符分为两类:
终结符

terminator   = $(digit) | $(ifelse) | $(pow) | $(divpow);

非终结符

#%Order% 28
noterminator = $(terminator) : "eval(m.rstr)" |  $(addsub) : "eval(m.rstr)";

此处需要解释脚本的含义,

  • m在此处代指前面匹配的实体
  • m.rstr为m的转写后的字符串
  • m.mstr为m匹配的字符串
    eval是引擎内置的函数,代指对转写后的字符串求值。

例子

三平方加上四平方
匹配路径如下
TODO
最后eval(32+42),结果为5

无法消除的左递归

如果希望支持计算类似'3加5的和乘以3'的表达式,那么terminator表达式需要这样写:

terminator   = $(digit) | $(ifelse) | $(pow) | $(divpow) | $(function)
|   $(noterminator)  $(add) $(noterminator)  $(addresult)
|   $(noterminator) $(sub) $(noterminator)  $(subresult);

但是,注意第二条子表达式
$(noterminator) $(add) $(noterminator) $(addresult)
$(noterminator)又引用了terminator,因此会导致无穷递归。
目前还没有找到合适的方法解决这个问题。

完整的代码

#计算引擎
#尝试解决 三点五乘以八点三的功能

#%Include% Rules/cnext
add  = (/加上?|\+|/ : /+/) ;
sub  = (/减去?|\-|/ : /-/);
mul = (/乘以?|\*|×/ : /*/);
div = (/除以?|/|÷/ : ///); 
pow2 = (/的?平方/ : /**2/);
pow3 = (/的?立方/ : /**3/);
pown=  (/的?/ : //) $(digit) (/次方/ : /**/) : $3 $2 $1; 


result= (/的?结果/);
addresult0= (/的?和/);
subresult0= (/的?差/);
addresult = $(result) $(addresult0);
subresult = $(result) $(subresult0);
addsub0=  $(add) | $(sub) ; 
logic0 =$(or) | $(and)  ;
divpow0 = $(mul) | $(div);
equalcheck = $(bigger) |$(less) | $(noequal);

operator= $(addsub0) | $(equalcheck) | $(logic0);

divpow = $(digit) $(divpow0) $(digit) ;
powx= $(pow2) | $(pow3) | $(pown);
pow = $(digit) $(powx); 

#functions
print = (/打印/ : /print/);
send = (/发送/ : /send/);
functions = $(print) | $(send);
function = $(functions) $(noterminator) : "invoke(m[0].rstr,m[1].rstr)";


addsub= $(not) $(noterminator)
    | $(noterminator) $(operator) $(noterminator);
    
terminator   = $(digit) | $(ifelse) | $(pow) | $(divpow) | $(function);



#暂时无法分析 3加5的和乘以3,因为会造成循环递归,从左向右推导不可行
#   | ) $(add) $(noterminator)  $(addresult)
#   | $(noterminator) $(sub) $(noterminator)  $(subresult);

#%Order% 28
noterminator = $(terminator) : "eval(m.rstr)" |  $(addsub) : "eval(m.rstr)";


or = (// : / or /);
and = (// : / and /);
not = (/不是/ : / not /);
equal = (/等于|=/ : /=/);
bigger = (/大于|>/ : />/);
less = (/小于|</ :/</);
noequal = (/不等于/: /!=/);

ifelse =  (/如果/) $(vu) (/,那么/) $(noterminator) (/,否则/) $(noterminator) : "check(m[1].rstr,m[3].rstr,m[5].rstr)";


作者:热情的沙漠
出处:http://www.cnblogs.com/buptzym/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。


本文转自FerventDesert博客园博客,原文链接:http://www.cnblogs.com/buptzym/p/5361121.html,如需转载请自行联系原作者
目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【Python机器学习】文本特征提取及文本向量化讲解和实战(图文解释 附源码)
【Python机器学习】文本特征提取及文本向量化讲解和实战(图文解释 附源码)
91 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
基于非英语数据集的图形机器学习和集成学习方法增强文本分类和文本情感分析
基于非英语数据集的图形机器学习和集成学习方法增强文本分类和文本情感分析 摘要 近年来,机器学习方法,特别是图学习方法,在自然语言处理领域,特别是文本分类任务中取得了巨大的成果。然而,许多这样的模型在不同语言的数据集上显示出有限的泛化能力。在本研究中,我们在非英语数据集(如波斯语Digikala数据集)上研究并阐述了图形机器学习方法,该方法由用户对文本分类任务的意见组成。更具体地说,我们研究了(Pars)BERT与各种图神经网络(GNN)架构(如GCN、GAT和GIN)的不同组合,并使用集成学习方法来处理某些知名的非英语数据集上的文本分类任务。我们的分析和结果表明,应用GNN模型可以更好地捕捉文
62 0
|
1月前
|
自然语言处理 语音技术
语言大模型和文本大模型的区别
【2月更文挑战第16天】语言大模型和文本大模型的区别
39 2
语言大模型和文本大模型的区别
|
1月前
|
SQL 前端开发 JavaScript
编程语言的分类与特点
编程语言的分类与特点
|
4月前
|
机器学习/深度学习 自然语言处理 算法
【Python自然语言处理】概率上下文无关文法(PCFG)及神经网络句法分析讲解(图文解释 超详细)
【Python自然语言处理】概率上下文无关文法(PCFG)及神经网络句法分析讲解(图文解释 超详细)
74 0
|
5月前
|
机器学习/深度学习 文字识别 自然语言处理
机器学习模型的变音符号
机器学习模型的变音符号
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
解决通用LLM「偏科」问题,数学大模型MathGPT要来了!
解决通用LLM「偏科」问题,数学大模型MathGPT要来了!
198 0
|
11月前
|
数据采集 自然语言处理 大数据
Python高频词汇提取技术
高频词汇提取技术
193 0
|
索引
HDLBits练习汇总-02-Verilog语言--向量部分(一)
HDLBits练习汇总-02-Verilog语言--向量部分
161 0
HDLBits练习汇总-02-Verilog语言--向量部分(一)
HDLBits练习汇总-02-Verilog语言--向量部分(二)
HDLBits练习汇总-02-Verilog语言--向量部分
111 0
HDLBits练习汇总-02-Verilog语言--向量部分(二)