灵玖NlpirParser智能挖掘平台文本分类过滤系统

简介:

  由于文档往往采用高频的词语来强调需要表达的特征涵义,而句子中往往是单一的词语,因此在句子检索中需要进一步选择更有区分能力的特征词。为此引入了文本分类过滤中常用的特征选择过程。
  灵玖Nlpir Parser智能挖掘平台文本分类过滤系统能够根据文献内容进行类别的划分,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多应用。
  文本过滤功能能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。
  灵玖采用基于内容的文本自动分类过滤和基于规则的文本分类过滤两种方式,并支持两种方式的混合分类。能够进行多级分类,分类速度每秒100篇以上,平均准确率90%以上,能够进行中英文分类和中英文的混合分类。用户可以灵活、方便的更换模板,来实现对不同的主题的分类过滤。
  主要接口:
  // 功能: 文件方式初始化
  // 返回值:成功/失败
  CLASSIFIER_API bool classifier_init(const char conf="rulelist.xml", const char sLicenseCode=0);
  // 功能:对输入的文章结构进行分类
  // 参数:d:文章结构指针
  // iType=0: 输出类名,各类之间用t隔开 内容格式举例:“要闻 敏感 诉讼”
  // iType=1: 输出类名和置信度,各类之间用t隔开,类名和权重用“ ”隔开 内容格式举例:“要闻 1.00 敏感诉讼 0.82”
  // 返回值:主题类别串 各类之间用t隔开,类名按照置信度从高到低排序
  CLASSIFIER_API const char classifier_exec(stDoc d, int iType=0);
  // 功能:对于当前文档,输入类名,取得结果明细
  // 参数:classname:结果类名
  // 返回值:结果明细 例如:
  /* RULE3:
  SUBRULE1: 内幕 1
  SUBRULE2: 股市 1 基金 3 股票 8
  SUBRULE3: 书摘 2 */
  CLASSIFIER_API const char classifier_detail(const char classname);
  // 功能:退出,释放资源
  CLASSIFIER_API void classifier_exit();

目录
相关文章
|
机器学习/深度学习 数据处理 对象存储
机器学习平台PAI智能标注之文本标注 Quick Start
智能标注(iTAG)是机器学习平台PAI上一款智能化数据标注平台,支持图像、文本、视频、音频等多种数据类型的标注以及多模态的混合标注。智能标注(iTAG)提供了丰富的标注内容组件和题目组件,您可以直接使用平台预置的标注模板,也可以根据自己的场景自定义模板进行数据标注。本文以文本标注为例快速演示该功能的使用,以供参考。
994 0
机器学习平台PAI智能标注之文本标注 Quick Start
|
2月前
|
数据采集 自然语言处理 数据可视化
数据分析案例-基于snownlp模型的MatePad11产品用户评论情感分析(上)
数据分析案例-基于snownlp模型的MatePad11产品用户评论情感分析
67 0
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM系列 | 11: 基于ChatGPT构建智能客服系统(query分类&安全检查&防注入)
本文主要介绍如何使用ChatGPT对智能客服领域中的客户咨询进行分类。此外还补充构建真实应用中如何对用户咨询内容和模型生成内容进行安全检查及其如何预防用户注入。
|
12月前
|
机器学习/深度学习 算法 数据可视化
【复杂网络建模】——Python可视化重要节点识别(PageRank算法)
【复杂网络建模】——Python可视化重要节点识别(PageRank算法)
510 0
|
搜索推荐 算法 Python
使用Python3配合协同过滤算法(base on user,基于人)构建一套简单的精准推荐系统(个性化推荐)
个性化推荐可谓风生水起,Youtube,Netflix,甚至于Pornhub,这些在互联网上叱咤风云的流媒体大鳄无一不靠推荐系统吸引流量变现,一些电商系统也纷纷利用精准推荐来获利,比如Amzon和Shopfiy等等,精准推荐用事实告诉我们,流媒体和商品不仅仅以内容的传播,它还能是一种交流沟通的方式。
使用Python3配合协同过滤算法(base on user,基于人)构建一套简单的精准推荐系统(个性化推荐)
|
自然语言处理
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(下)
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(下)
115 0
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(下)
|
自然语言处理 监控 算法
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(上)
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(上)
242 0
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(上)
|
机器学习/深度学习 分布式计算 数据可视化
基于Spark的机器学习实践 (六) - 基础统计模块
基于Spark的机器学习实践 (六) - 基础统计模块
167 0
|
机器学习/深度学习 存储 分布式计算
【译】如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈
如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈
4076 0
|
机器学习/深度学习 自然语言处理 大数据
NLPIR智能语义挖掘文本大数据深层意义
NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
1628 0