语料库————(二)

简介: 以下是我国20大知名语料库,书到用时方恨少,还不赶快来收藏?! 1.中央研究院近代汉语标记语料库:http://www.sinica.edu.tw/Early_Mandarin/ 2.中央研究院汉籍电子文献(瀚典全文检索系统)http://www.sinica.edu.tw/ftms-bin/ftmsw3 3.国家现代汉语语料库:http://124.207.106

以下是我国20大知名语料库,书到用时方恨少,还不赶快来收藏?!

1.中央研究院近代汉语标记语料库:http://www.sinica.edu.tw/Early_Mandarin/

2.中央研究院汉籍电子文献(瀚典全文检索系统)http://www.sinica.edu.tw/ftms-bin/ftmsw3

3.国家现代汉语语料库:http://124.207.106.21:8080/

4.国家语委现代汉语语料库:http://www.clr.org.cn/retrieval/index.html

5.树图数据库:http://treebank.sinica.edu.tw/

6.语料库语言学在线:corpus4u.org

7.北京大学中国语言学研究中心,简称CCL语料库检索系统(包括:现代汉语语料库、古代汉语语料库、汉英双语语料库)http://ccl.pku.edu.cn/Yuliao_Contents.Asp

8.北京大学《人民日报》标注语料库:http://www.icl.pku.edu.cn

9.北京语言大学的语料库:http://www.blcu.edu.cn/kych/H.htm

 

10.清华大学的汉语均衡语料库THACorpushttp://www.lits.tsinghua.edu.cn/ainlp/source.htm

11.山西大学语料库http://www.sxu.edu.cn/homepage/cslab/sxuc1.htm

12.台湾南岛语典藏:http://www.ling.sinica.edu.tw/Formosan/

13.闽南语典藏:http://southernmin.sinica.edu.tw/

14.香港城市大学的LIVAC共时语料库:http://www.rcl.cityu.edu.hk/livac/http://www.LIVAC.org

15.浙江师范大学的历史文献语料库:http://lib.zjnu.net.cn/xueke/hyywzx/xkjj.htm

16.中国科学院计算所的双语语料库:http://mtgroup.ict.ac.cn/corpus/query_process.php

17.中文语言资源联盟:http://www.chineseldc.org/xyzy.htm

18.红楼梦汉英平行语料库http://score.crpp.nie.edu.sg/hlm/index.htm#

19.SKETCHENGINE多语言语料库:www.sketchengine.co.uk

20.LIVAC共时语料库:http://www.livac.org/

目录
相关文章
|
1月前
|
机器学习/深度学习 自然语言处理
机器翻译中的词性标注
机器翻译中的词性标注
16 2
|
7月前
|
机器学习/深度学习 自然语言处理 算法
大型语言模型:SBERT — 句子BERT
大型语言模型:SBERT — 句子BERT
88 0
|
2天前
|
自然语言处理 Python
使用Python实现文本分类与情感分析模型
使用Python实现文本分类与情感分析模型
17 1
|
11月前
|
数据采集 自然语言处理 开发工具
fasttext实现文本分类
fasttext实现文本分类
207 0
|
9月前
|
自然语言处理 搜索推荐
|
10月前
|
机器学习/深度学习 自然语言处理 资源调度
论文解读系列| 06:【NER】LatticeLSTM模型详解
Lattice LSTM模型是基于词汇增强方法的中文NER的开篇之作。在该模型中,使用了字符信息和所有词序列信息,具体地,当我们通过词汇信息(词典)匹配一个句子时,可以获得一个类似Lattice的结构。这种方式可以避免因分词错误导致实体识别错误,在中文NER任务上有显著效果。
|
10月前
|
机器学习/深度学习 移动开发 知识图谱
论文解读系列| 03:【NER】FGN模型详解
汉字作为象形文字有其潜在的特殊字形信息,而这一点经常被忽视。FGN是一种将字形信息融入网络结构的中文NER方法。除了用一个新型CNN对字形信息进行编码外,该方法可以通过融合机制提取字符分布式表示和字形表示之间的交互信息。
|
10月前
|
机器学习/深度学习 自然语言处理 算法
论文解读系列| 05:【NER】SoftLexicon模型详解
SoftLexicon是一种简单而有效的将词汇信息纳入字符表示的方法。这种方法避免设计复杂的序列建模结构,并且对于任何NER模型,它只需要细微地调整字符表示层来引入词典信息。在4个中文NER基准数据集上的实验结果表明,该方法的推理速度比现有SOTA方法快6.15倍,性能更好。
|
11月前
|
机器学习/深度学习 数据采集 人工智能
基于TextCNN实现文本分类
本文参考Yoon Kim的论文"Convolutional Neural Networks for Sentence Classification",实现TextCNN卷积神经网络进行文本分类。
152 0
基于TextCNN实现文本分类

热门文章

最新文章