1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. Y>
  5. 语料

当前主题:语料

语料准备

之前查找了很多资料,发现语料准备这块的方法论很有限,在我看来如果说AI是个学生,语料其实是教科书,是知识的海洋,是AI的粮食,非常重要。 本文主要探讨有充分的语料基础后对语料进行预处理的办法。 1,众包打标签 2,手工规则提取 关键词特征,使用数据库进行批量

阅读全文

语料库资源————(一)

国内可用免费语料库(凡没有标注不可用的链接均可用) (一) 国家语委 1.国家语委现代汉语语料库http://www.cncorpus.org/ 现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语

阅读全文

面向机器学习的自然语言标注1.2 语料库语言学简史

1.2 语料库语言学简史 20世纪中叶,语言学实际上主要作为一种描述手段,用来研究语言中的结构属性和语言之间的类型差异。这使得构成语言表达的不同信息成分的描写模型相当复杂。在其他社会科学领域中,收集和分析数据一直来自统计学的计量技术。20世纪40年代,语言学家

阅读全文

语料库————(二)

以下是我国20大知名语料库,书到用时方恨少,还不赶快来收藏?! 1.中央研究院近代汉语标记语料库:http://www.sinica.edu.tw/Early_Mandarin/ 2.中央研究院汉籍电子文献(瀚典全文检索系统)http://www.sinic

阅读全文

gensim训练word2vec语料库初探

NLP技术已经非常成熟,各行各业都需要有专门的NLP技术。网上介绍gensim的材料很多,有几种类型: 翻译,摘录的非原创,采用英文维基wiki语料库的 中文训练,但是采用的现成语料库,比如中文维基,搜狐新闻等通用语料。 真正动起手来,还是困难重重,下面我结

阅读全文

NLP 语料分类不均衡的解决办法

一、Introduction 二、Influence 三、别人的解决办法 数据层面: 算法层面: 四、个人的解决办法 五、Reference 一、Introduction 以前在做情感分类问题都是用sst等等,一些经典的语料,但是当自己要做语料的时候,才发现

阅读全文

如何使用中文维基百科语料

前言 在做自然语言处理时很多时候都会需要中文语料库,高质量的中文语料库较难找,维基百科和百度百科算是比较不错的语料库。其中维基百科会定时将语料库打包发布 https://dumps.wikimedia.org/zhwiki/ ,可以下载最新版本的语料库。而百

阅读全文

GENIA项目-GENIA语料库

GENIA corpus The GENIA corpus is the primary collection of biomedical literature compiled and annotated within the scope of the GE

阅读全文