令人称赞的 文本挖掘技术

简介:

文本挖掘的艺术之一:

QQ聊天记录:中文聊天内容的挖掘

640_wx_fmt=png&tp=webp&wxfrom=5.webp

核心词云的制作:

640_wx_fmt=png&tp=webp&wxfrom=5.webp[6]

在用R做文本挖掘之前我们需要做一些前期的环境准备,

我们这里做分析的文本是tm包下面的一个示例文本, 例如:

第一步:设置文本路径:

setwd("C:\\Users\\aioger\\Documents\\R\\win-library\\3.2\\tm")

第二步:建立自己的语料库:

ovid <- VCorpus(DirSource(txt, encoding= "UTF-8"), readerControl = list(language = "en"))

640_wx_fmt=png&tp=webp&wxfrom=5.webp[8]

第三步:文档词项矩阵

dtm <- DocumentTermMatrix(reuters)

#词频关联查找:

findAssocs(dtm,"qui",0.3)

640_wx_fmt=png&tp=webp&wxfrom=5.webp[10]

第四:删除关联词频少的

dtm1<- removeSparseTerms(dtm,sparse=0.5)#这里是把关联性小于0.5的词给删掉

第五步:转正

data1<-t(t(dtm1))

data1<-as.matrix(data1)

data1<-t(data1)

对data1做中心化

data.scale <- scale(data1)

绘制聚类图

d <- dist(data.scale, method ="euclidean")

fit <- hclust(d,method="ward.D")

plot(fit,main ="文件聚类分析-王华")

640_wx_fmt=png&tp=webp&wxfrom=5.webp[12]

下面我们在来画出这个的词云图

v<-sort(rowSums(data1),decreasing=TRUE)

d<-data.frame(word=names(v),freq=v)

wordcloud(d$word,d$freq)

wordcloud(d$word,d$freq,scale = c(6, 1.5),min.freq = 2, max.words = 1000, colors = rainbow(100))

640_wx_fmt=png&tp=webp&wxfrom=5.webp[14]

目录
相关文章
|
1月前
|
人工智能 自然语言处理 UED
微软最新 Sora 分析论文,从中可以看到 Sora 有哪些局限?
【2月更文挑战第17天】微软最新 Sora 分析论文,从中可以看到 Sora 有哪些局限?
40 2
微软最新 Sora 分析论文,从中可以看到 Sora 有哪些局限?
|
8月前
|
SQL 机器学习/深度学习 自然语言处理
个人眼中的大模型
纵观最近两年互联网科技圈,大模型在自然语言工程领域的崛起确实给我们带来了很多新的可能性和机遇。结合我最近阅读了阿里开发者写的《应用开发者的疑问:大模型是真正的银弹吗?》这篇文章,是否可以将大模型视为真正的银弹呢?关于这个问题,我有一些个人观点想要分享一下,分享一下个人是否觉得大模型就是真正的银弹。
97 1
个人眼中的大模型
|
11月前
ChatGPT - 生成新的想法并克服写作的障碍
ChatGPT - 生成新的想法并克服写作的障碍
78 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT成功背后的技术原因及其对生命科学领域的启发
ChatGPT成功背后的技术原因及其对生命科学领域的启发
|
11月前
|
Web App开发 机器学习/深度学习 人工智能
一场关于ChatGPT话语权的深度思考:人类会在大模型中迷失自我吗?
一场关于ChatGPT话语权的深度思考:人类会在大模型中迷失自我吗?
105 0
|
11月前
|
人工智能 安全 机器人
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂
|
机器学习/深度学习 人工智能 自然语言处理
《花雕学AI》21:脑筋急转弯---ChatGPT能够灵活运用逻辑推理和创造性思维吗?
随着人工智能技术的不断发展和成熟,ChatGPT在未来还有很大的应用前景。例如,在教育领域,ChatGPT可以被应用于编写智力游戏、脑力训练等课程内容,从而帮助学生提高思维能力和语言表达能力。同时,在娱乐行业,ChatGPT也可以被用于开发各种趣味游戏,满足人们的娱乐需求。 然而,我们也必须承认,ChatGPT在解决脑筋急转弯问题上仍存在一些挑战和限制。例如,在处理一些复杂的双关语和玩味语言时,模型的效果可能会受到影响,需要不断地优化和改进。
317 0
《花雕学AI》21:脑筋急转弯---ChatGPT能够灵活运用逻辑推理和创造性思维吗?
|
机器学习/深度学习 人工智能 定位技术
举出其他监督学习,无监督学习,强化学习的例子?说一下非显著式编程的优势?AlphaGo的胜利,带给我们什么样的人生启示?当代大学生如何在人工智能时代增加自己的核心竞争力?
举出其他监督学习,无监督学习,强化学习的例子?说一下非显著式编程的优势?AlphaGo的胜利,带给我们什么样的人生启示?当代大学生如何在人工智能时代增加自己的核心竞争力? 监督学习:比如手写体识别,我们将许多汉字的手写数字图像数据作为训练数据。汉字的数据的分类目标被称作标签和类。训练数据有一个标签(某一个汉字),根据标签可以找到关于手写数字图像的正确答案信息,例如“此手写数字图像为‘人’”。在学习阶段,当将手写汉字图像输入系统时,调整系统的参数以尽量将输入图像分类为正确的标签,最后进行识别输出正确结果。 无
161 0
|
机器学习/深度学习 自然语言处理 达摩院
【ModelScope】5分钟让你在大火的多模态领域权威榜单VQA上超越人类
ModelScope上开源了达摩院众多业界最强多模态模型,其中就有首超人类的多模态视觉问答模型mPLUG,小编从页面体验(一探)、开发体验(二探)、开放测试(三探)来探究多模态预训练模型能力。
24172 8
【ModelScope】5分钟让你在大火的多模态领域权威榜单VQA上超越人类
|
机器学习/深度学习 人工智能 语音技术
Facebook创造了两个会交流的神经网络来描述颜色,竟和人类语言惊人相似
你想过你是如何描述一个颜色的吗?最新研究表明人类使用离散符号来记录一个区域的颜色,在细化颜色过程中又增添其他信息。这背后有什么道理吗?Facebook用两个神经网络的实验现象告诉你。
Facebook创造了两个会交流的神经网络来描述颜色,竟和人类语言惊人相似