备案控制台

开发者社区

开发者社区大数据文章正文

令人称赞的文本挖掘技术

2016-05-05 3101

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

文本挖掘的艺术之一：

QQ聊天记录：中文聊天内容的挖掘

核心词云的制作：

在用R做文本挖掘之前我们需要做一些前期的环境准备，

我们这里做分析的文本是tm包下面的一个示例文本，例如：

第一步：设置文本路径：

setwd("C:\\Users\\aioger\\Documents\\R\\win-library\\3.2\\tm")

第二步：建立自己的语料库：

ovid <- VCorpus(DirSource(txt, encoding= "UTF-8"), readerControl = list(language = "en"))

第三步：文档词项矩阵

dtm <- DocumentTermMatrix(reuters)

#词频关联查找：

findAssocs(dtm,"qui",0.3)

第四：删除关联词频少的

dtm1<- removeSparseTerms(dtm,sparse=0.5)#这里是把关联性小于0.5的词给删掉

第五步：转正

data1<-t(t(dtm1))

data1<-as.matrix(data1)

data1<-t(data1)

对data1做中心化

data.scale <- scale(data1)

绘制聚类图

d <- dist(data.scale, method ="euclidean")

fit <- hclust(d,method="ward.D")

plot(fit,main ="文件聚类分析-王华")

下面我们在来画出这个的词云图

v<-sort(rowSums(data1),decreasing=TRUE)

d<-data.frame(word=names(v),freq=v)

wordcloud(d$word,d$freq)

wordcloud(d$word,d$freq,scale = c(6, 1.5),min.freq = 2, max.words = 1000, colors = rainbow(100))

文章标签：

数据挖掘

skyme

目录

相关文章

楠竹11

|

1月前

|

人工智能自然语言处理 UED

微软最新 Sora 分析论文，从中可以看到 Sora 有哪些局限？

【2月更文挑战第17天】微软最新 Sora 分析论文，从中可以看到 Sora 有哪些局限？

楠竹11

40 2 2

微软最新 Sora 分析论文，从中可以看到 Sora 有哪些局限？

三掌柜666

|

8月前

|

SQL 机器学习/深度学习自然语言处理

个人眼中的大模型

纵观最近两年互联网科技圈，大模型在自然语言工程领域的崛起确实给我们带来了很多新的可能性和机遇。结合我最近阅读了阿里开发者写的《应用开发者的疑问：大模型是真正的银弹吗？》这篇文章，是否可以将大模型视为真正的银弹呢？关于这个问题，我有一些个人观点想要分享一下，分享一下个人是否觉得大模型就是真正的银弹。

三掌柜666

97 1 1

小小工匠

|

11月前

ChatGPT - 生成新的想法并克服写作的障碍

ChatGPT - 生成新的想法并克服写作的障碍

小小工匠

78 0 0

-开发达人-

|

11月前

|

机器学习/深度学习人工智能自然语言处理

ChatGPT成功背后的技术原因及其对生命科学领域的启发

ChatGPT成功背后的技术原因及其对生命科学领域的启发

-开发达人-

69 0 0

技术小达人

|

11月前

|

Web App开发机器学习/深度学习人工智能

一场关于ChatGPT话语权的深度思考：人类会在大模型中迷失自我吗？

一场关于ChatGPT话语权的深度思考：人类会在大模型中迷失自我吗？

技术小达人

105 0 0

-开发达人-

|

11月前

|

人工智能安全机器人

研究者意外发现DALL-E 2在用自创语言生成图像：全文黑话，人类都看不懂

研究者意外发现DALL-E 2在用自创语言生成图像：全文黑话，人类都看不懂

-开发达人-

97 0 0

驴友花雕

|

机器学习/深度学习人工智能自然语言处理

《花雕学AI》21：脑筋急转弯---ChatGPT能够灵活运用逻辑推理和创造性思维吗？

随着人工智能技术的不断发展和成熟，ChatGPT在未来还有很大的应用前景。例如，在教育领域，ChatGPT可以被应用于编写智力游戏、脑力训练等课程内容，从而帮助学生提高思维能力和语言表达能力。同时，在娱乐行业，ChatGPT也可以被用于开发各种趣味游戏，满足人们的娱乐需求。然而，我们也必须承认，ChatGPT在解决脑筋急转弯问题上仍存在一些挑战和限制。例如，在处理一些复杂的双关语和玩味语言时，模型的效果可能会受到影响，需要不断地优化和改进。

驴友花雕

317 0 0

《花雕学AI》21：脑筋急转弯---ChatGPT能够灵活运用逻辑推理和创造性思维吗？

56bnlrbj3zqum

|

机器学习/深度学习人工智能定位技术

举出其他监督学习，无监督学习，强化学习的例子？说一下非显著式编程的优势？AlphaGo的胜利，带给我们什么样的人生启示？当代大学生如何在人工智能时代增加自己的核心竞争力？

举出其他监督学习，无监督学习，强化学习的例子？说一下非显著式编程的优势？AlphaGo的胜利，带给我们什么样的人生启示？当代大学生如何在人工智能时代增加自己的核心竞争力？监督学习：比如手写体识别，我们将许多汉字的手写数字图像数据作为训练数据。汉字的数据的分类目标被称作标签和类。训练数据有一个标签(某一个汉字)，根据标签可以找到关于手写数字图像的正确答案信息，例如“此手写数字图像为‘人’”。在学习阶段，当将手写汉字图像输入系统时，调整系统的参数以尽量将输入图像分类为正确的标签，最后进行识别输出正确结果。无

56bnlrbj3zqum

161 0 0

xrfr22zbcy4rw

|

机器学习/深度学习自然语言处理达摩院

【ModelScope】5分钟让你在大火的多模态领域权威榜单VQA上超越人类

ModelScope上开源了达摩院众多业界最强多模态模型，其中就有首超人类的多模态视觉问答模型mPLUG，小编从页面体验（一探）、开发体验（二探）、开放测试（三探）来探究多模态预训练模型能力。

xrfr22zbcy4rw

24172 8 13

【ModelScope】5分钟让你在大火的多模态领域权威榜单VQA上超越人类

-开发达人-

|

机器学习/深度学习人工智能语音技术

Facebook创造了两个会交流的神经网络来描述颜色，竟和人类语言惊人相似

你想过你是如何描述一个颜色的吗？最新研究表明人类使用离散符号来记录一个区域的颜色，在细化颜色过程中又增添其他信息。这背后有什么道理吗？Facebook用两个神经网络的实验现象告诉你。

-开发达人-

96 0 0

Facebook创造了两个会交流的神经网络来描述颜色，竟和人类语言惊人相似

热门文章

最新文章

阿里云各个地域节点测试IP（国内+海外）Ping值延迟测试（全解析）

基于Flink的实时日志分析系统实践

阿里云的SLB，植入cookie和重写cookie有什么区别？

uni-app 开源资源汇总

一文了解阿里云对象存储OSS

SQL SERVER中的OLEDB等待事件

kindle3使用技巧

sd卡无法写操作

普京顾问警告或征收科技税谷歌苹果可能受创

CIO：传统企业如何做好转型？

手动给docusaurus添加一个搜索

深入白盒测试：代码级透视与质量保证

网络安全与信息安全：防御前线的关键技术与意识

云端守卫：融合云计算与网络安全的未来之路

nginx 配置代理ip访问https的域名配置

基于Java的中国传统面食介绍网站的设计与实现(源码+lw+部署文档+讲解等)

Python搭建代理IP池实现存储IP的方法

外部中断的使用方法

基于Java的快递信息管理系统的设计与实现(源码+lw+部署文档+讲解等)

深入理解MySQL中的UPDATE JOIN语句

相关课程

更多

人机对话技术浅析

AI情绪鼓励师模型微调实操教学

南瓜书《机器学习公式推导》

跨越N次元一键变身AI漫画人

【科技少年】AI领航员探索教程（赛前训练）

声纹识别技术

相关电子书

更多

当人工智能“科学遇到艺术”的一点杂谈

当人工智能“科学遇到艺术“的一点杂谈

人工智能技术与艺术的鉴赏创作

相关实验场景

更多

函数计算部署AI艺术字应用，生成新春文字头像

基于阿里云DeepGPU实例，用AI画唯美国风少女

一键创建和部署高分电影推荐语音技能

自然语言入门：NLP数据读取与数据分析

下一篇

阿里云oss简介和使用流程