[分享]敏感内容自动评审类库及辅助工具

简介:

通过本类库,可以实现对输入内容的自动分析,并会给出评分,程序可以根据此评分判断内容是否达到某一敏感度级别,从而进行相应的自动化处理。

如果将此类库与人工评审相结合,效果将会非常好:机审认为有敏感嫌疑的内容自动提交到人工评审等待列表,由人工进行二次审核,这样在保证效率的同时又兼顾了准确性,是比较理想的人机协作方式。

此类库的运作原理请参考《改进的脏话审查方案》一文:http://www.cnblogs.com/SkyD/archive/2009/03/16/updateTextVali.html

 

编写审查规则

光有此类库并不能评审任何内容,你需要为其提供审查规则,它才能够工作,为此我将提供一个生成器,用以生成规则配置文件:

image

关于规则的应用原理,也请参看《改进的脏话审查方案》一文。

这里说明一下评分的计算方式:

规则的分值属性代表这个规则的满分值,也就是说当文中的词语与此规则完全匹配时的得分,如果可以匹配但不精确则依据精确程度得到相应比例的部分分值。

而匹配精确程度的计算方式,就是通过其精确长度属性与其实际匹配内容的长度间的比例计算的。比如“白[\s\S]{0,3}?痴”这条规则,其精确长度是2,即刨除可容忍的干扰符号后的原字符串“白痴”的长度,假如遇到“有一个小白正在痴痴地望着她”这句话,也会与“白正在痴”发生匹配,但其长度为4,通过用规则的精确长度值2除以实际匹配到的字符串长度4,就得出了我们此次匹配的精确度:50%,然后假如此规则的分值为6的话,那么此次匹配则只能得到6*0.5=3分。

这是精确分值的计算方式,除此之外类库也会同时输出不进行精确度修正的分值,以适用于不同情况。

另外有一点需要注意:此类库的输入规则必须为简体中文,但在匹配时会对简体与繁体都进行匹配。

 

调用方法

调用此类库前,应当首先通过规则配置生成器,生成一个或多个规则配置文件,并将它们放在一个目录中。

然后为其静态属性赋值,指示上述规则配置文件的存储路径,然后执行其静态的“加载审查规则”方法:


内容审查.规则文件目录 = Path.Combine(Application.StartupPath, "内容审查规则\\");

内容审查.加载审查规则();


这样就完成了初始化,然后只需创建“内容审查”对象,并传入待分析的字符串,执行“审查”方法即可完成评审:


内容审查 c = new 内容审查(textBox2.Text);

c.审查();


执行之后即可访问该对象的“累计评分”、“累计精确评分”、“最高评分”、“输出明细”等属性,获取相应的评审结果了。

此外,“审查”方法还有一个重载,允许放弃输出明细匹配信息,仅输出其他的分值和统计信息,以提高评审速度,一般在机审时应当这样使用,而在人工复审时输出明细信息供操作员参考。

 

应用测试

我提供了一个测试工具,用以进行简单的规则测试。

我们以译言中的一篇文章为例进行评审测试,其原文地址为:http://www.yeeyan.com/articles/view/24994/7075

测试结果:


标题栏处显示的“捕获内容覆盖率”也是审查后提供的统计信息,用以表示敏感内容占据全文的比例,在进行自动后续处理时,此属性也应当作为一个重要的判定依据。比如有些内容很短,并遍布着敏感词汇,但因其内容少所以总分并不会太高,而其覆盖率却会非常高,这时以覆盖率为判别依据就不会漏掉此内容。

窗口左下方显示的“[宗教]”、“[政治]”表示规则的分类,即规则所属的配置文件的文件名。

 

结语

此类库对于网站中的用户输入内容审查工作非常有用,善加利用,将远比寻常的关键字替换、关键字禁止提交、纯人工审核等方案优秀得多,使安全性与效率趋于平衡。

各位如有功能或性能方面的改进建议,欢迎提出,共同探讨。

另外,我还会后续放出一个用于在Asp.Net中使用的可视化人工审核辅助控件,敬请关注。

 

下载

类库源代码及辅助程序:http://www.uushare.com/user/icesee/file/1932449

(重新上传,修正了一处错误)

规则配置文件包:http://www.uushare.com/user/icesee/file/1925838

规则配置文件包中包含以下规则配置示例:

image

下载本文的XPS版本:http://www.uushare.com/user/icesee/file/1925859

 

 

娱乐时段

这两天娱乐贴很受欢迎啊,看来大家工作都太投入了,有时是应当放松一下啦,我在此附赠两个程序员适合的益智小游戏吧,它们可算是这些年来难得的精品哦:

 

植物大战僵尸

image

通过构筑防御工事抵御敌人一轮又一轮的进攻,这游戏不但好玩还很搞笑,豌豆射手、卷心菜投手、樱桃炸弹、食人花、火焰树桩、冰镇西瓜投手、咖啡豆、玉米加农炮、坚果墙、土豆地雷……听名字就很好玩吧,一共有49种不同的植物哦,并且通关之后还会开启众多新玩法,很耐玩并富有挑战性。

主题曲也很好听:

游戏下载地址:http://www.uushare.com/user/icesee/file/1913105

 

粘粘世界

image

据说是两个宅男开发的游戏(崇拜啊),这游戏很另类,但做的很成功,画面细腻,风格清新,提示诙谐又诡异,音效很不错,玩法主要就是使用各种不同功能的粘粘球组合起来,让尽可能多的粘粘球输送到目标管道中,其中的最大挑战就是地心引力与那些刺啦。

游戏下载地址:http://www.uushare.com/user/icesee/file/1907621

 

如果下载速度很慢的话,也可以用电驴从这里分别下载这两个游戏,下的人很多,速度不错的:

http://www.verycd.com/topics/2745208/

http://www.verycd.com/topics/2738323/

相关文章
|
1月前
|
移动开发 安全 数据安全/隐私保护
iOS 全局自动化代码混淆工具!支持 cocoapod 组件代码一并混淆
iOS 全局自动化代码混淆工具!支持 cocoapod 组件代码一并混淆
|
6月前
|
Web App开发 前端开发 JavaScript
网页前端项目评审参考标准
网页前端项目评审参考标准
51 0
|
16天前
|
开发者
找到一个软件著作权源代码材料格式文档生成辅助工具(完全私密,没有代码泄露风险)
截至2023年5月,一款工具已获一万次下载,用户反馈良好。该工具帮助开发者轻松整理软著申请所需的60页源代码,支持多种编程语言,自动处理页眉、页码和格式,减少因格式问题导致的补正。提供《文档鉴别材料》模板和简单两步操作的源代码文档生成器,加快软著注册流程。下载链接包括百度网盘和阿里云盘。
找到一个软件著作权源代码材料格式文档生成辅助工具(完全私密,没有代码泄露风险)
|
3月前
|
Web App开发 Linux 开发工具
欲善事先利器-系统篇
欲善事先利器-系统篇
52 1
|
3月前
|
Web App开发 Linux 开发工具
欲善事先利器——系统篇
欲善事先利器——系统篇
46 0
求大家鉴定下本人开发的系统平台界面如何,请多提宝贵意见
求大家鉴定下本人开发的系统平台界面如何,请多提宝贵意见
|
8月前
|
存储 缓存 监控
转:冰桶算法在文档管理软件中有哪些用途
冰桶算法是一种常用的监控算法,主要应用于软件的性能监控和故障诊断。
43 0
|
9月前
|
安全 API 数据安全/隐私保护
在编写API接口的技术文章时应注意的内容
编写API接口技术文章时建议包含的内容,通过清晰的说明和示例,可以帮助读者准确理解和使用API接口。
|
9月前
|
IDE 测试技术 编译器
如何管理代码仓库,可以用什么系统开发,编程工具有哪些,程序异常怎么定位分析?
随着工具的日新月异,善于利用这些工具将有利于我们开发效率的提高,本文将简要介绍标题相关知识。
|
存储 JavaScript Linux
禅道 给禅道缺陷增加自定义字段供不同的缺陷操作页面使用 1
禅道 给禅道缺陷增加自定义字段供不同的缺陷操作页面使用
551 0

热门文章

最新文章