1. 云栖社区>
  2. 全部标签>
  3. #数据挖掘#
数据挖掘

#数据挖掘#

已有4人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

如何在Web数据挖掘中保证用户访问速度的一点实践(SQLite+Quartz)

这个问题一直纠结我很久,以前也想过很多很多想法如下: 1)记录在WebDb中; 2)采用异步线程记录; 3)采用js像cnzz,google那样; 4) 等等记得的就这些了 但是都被我扼杀在脑海中了,第一种方式,本来webdb就已经负载不小了,每次请求都记录太不实际,而且采集的数据结构也会时常变化,通常根据当前的研究方向等来确定。

线程 web 负载均衡 数据挖掘 sqlite 数据结构 quartz

ArcGIS 10.5 新功能

ArcGIS 10.5正式发布,打造智能的Web GIS平台 2017年新年来临之际,ArcGIS 10.5正式发布。   历经几个版本,ArcGIS10.5已经革新为一个智能的以Web为中心的地理平台,推出更精细的分级授权、全新的i3S三维标准、大数据分析处理产品、多Portal间协作共享等诸多新特性及增强,更进一步促进用户间的沟通协作,分析大数据背后的价值,使用户更智能、更高效、更敏捷的进行决策及响应。

大数据 服务器 web 数据挖掘 Server 大数据分析

读书笔记《集体智慧编程》Chapter 3 : Discovering Groups

目的 最近项目中有个需求是文本聚类,实现这个功能需要一些数据挖掘的技术,由于此领域“水很深”,项目也很紧,没有那么多闲功夫去深入研究此领域。向一个相关领域的博士在读同学请教了此问题,推荐阅读《Programming Collective Intelligence》中的相关章节,读后果然豁然开朗,这里再次感谢此同学 。

算法 c++ 数据分析 数据挖掘 编程

数据挖掘学习01 - 数据挖掘工具调研

工欲善其事必先利其器,学习数据挖掘,没有好的工具,估计举步维艰。下面是在网上上调研的一些数据挖掘工具,详细情况,参考链接中的内容: http://voyagememoirs.com/pharmine/2008/05/18/summary/ http://wenku.baidu.com/view/5cea1f906bec0975f465e2ab http://wenku.baidu.com/view/2d61580cf78a6529647d53a4.html   主要集中到weka和KNIME两个工具上 weka支持分析模块的直接API调用,这样可以方便集成到项目中。

模块 数据挖掘 API html GUI view

数据挖掘学习02 - 使用weka的kmeans聚类分析

本文目的 weka是一套使用java开发的数据挖掘工具集合,提供GUI/CLI界面和Java API使用方式。所以,在学习和解决数据挖掘问题时,可以先尝试用weka的GUI或CLI做出合适的分析,找到适当的算法,然后在将此算法集成到自己的项目中。

算法 数据挖掘

数据挖掘学习03 - 统计工具R学习和使用小结

本文目的 最近在使用R做一些文本聚类方面的计算,感觉R还是很好用的,特别是R有很多计算扩展,可以方便的运用这些扩展和数据进行试验。所以,在此记录一些使用心得,作为备忘。   R是什么 R是一个开源软件,起初主要用于数学统计计算。

函数 windows 数据分析 数据挖掘 脚本 html

数据挖掘学习05 - 使用R对文本进行hierarchical cluster并验证结果

本文目的 最近一直在使用R进行hcluster计算,主要采用了一些R自带的距离公式和cophenetic距离验证聚类的质量。其中R自带的hclust方法不支持cosine函数,如果需要下载R的扩展,要下载许多关联的库,所以自己编写了一个简单的cosine函数,并且使用了R的proxy扩展(距离计算框架),计算向量距离。

函数 cluster 数据挖掘 single

数据挖掘学习06 - 《数据挖掘导论》导读

读完了《数据挖掘导论》(简称IDM)的前言和第一章,了解到本书主要负责数据挖掘的5个主题 数据预处理 Chp 2 3 分类 Chp 4 5 关联 Chp 6 7 聚类 Chp  8 9 异常探测 Chp 10 前面的四个主题均分为两部分:基础和高级。

互联网 数据挖掘

数据挖掘学习07 - 《数据挖掘导论》第二章:数据

本文目的 最近在看《数据挖掘导论》,此书作为此领域的入门书籍,很有口碑。这几天抽业余时间,看了第二章,觉得该记点什么,否则对不起自己。人总在与遗忘作斗争,好记性不如烂笔头。   主要内容 本章节主要讨论了数据处理的4个主要方面: 数据类型 数据质量 数据预处理 相似度测量   数据类型(Type of Data) 定义数据的属性,记录,数据集。

函数 数据处理 数据挖掘 数据类型

数据挖掘学习08 - 实验:使用R评估kmeans聚类的最优K

本文目的 最近这几天一直在研究如何评估Kmeans聚类算法中的最优K值。主要理论依据是《数据挖掘导论》8.5.5节中介绍的SSE和Silhouette Coefficient系数的方法评估最优K。现在记录整个实验过程,作为备忘。

算法 容器 数据挖掘 脚本 read

读书笔记《集体智慧编程》Chapter 10 : Finding Independent Features

本文概要 本章主要描述了非负矩阵因式分解(Non-Negative Matrix Factorize)在数据挖掘中的作用。举了两个例子:1)文章主题分析(一些关键的词组);2)股票交易量分析(交易量与重大事件的关系)   贝叶斯分类的局限 贝叶斯分类时,需要训练数据集,这些数据集是人为划分的,并且不会出现新的分类。

算法 函数 数据挖掘 编程

R概率分布函数使用小结

记要 今天在计算分类模型自行区间时,用到了R中正太分布的qnorm函数,这里做简单记要,作为备忘。 R中自带了很多概率分布的函数,如正太分布,二次分布,卡放分布,t分布等,这些分布的函数都有一个共性,每个分布拥有4个带有d,p,q,r前缀的函数。

函数 数据挖掘

【转】决策树之三国争霸

原文出处:http://xccds1977.blogspot.com/2012/11/blog-post_28.html     决策树是一种简洁实用的数据挖掘方法。在R中通常可以用rpart包和party包来实现两种算法的决策树 。

算法 数据挖掘 test

一位数据科学家的私房工具清单

转自hayaqi0504原文 一位数据科学家的私房工具清单   来自:IT经理网(微信号:ctociocom) 链接:www.ctocio.com/ccnews/23145.html(点击尾部阅读原文前往) 作为一位万人敬仰的数据科学家,不但需要培育一棵参天技能树,私人武器库里没有一票玩得转的大火力工具也是没法在江湖中呼风唤雨的。

python 数据可视化 数据处理 Django 数据库 web 用户界面 数据分析 数据挖掘 pandas Cassandra 数据类型 数据存储

用智慧让商场的购物体验大放异彩

处在移动互联网大的浪潮中,商场和购物中心已不能仅从购物来满足消费者的需求,现在的顾客大多追求更高体验的时尚生活方式。商场和购物中心利用网络和移动技术,实现向智慧商场的转型成为必然趋势,智慧商场应运而生。

云栖社区 数据挖掘 移动互联网

机器学习 Python 库 Top 20

如今开源是创新的核心,推动着技术的飞速革新。本文会为你介绍 2016 年机器学习 Top 20 Python 开源项目,同时分析得出一些有趣的见解和发展趋势。 KDnuggets 为您带来 Github 上最新的 Python 机器学习开源项目前 20 名。

python 深度学习 算法 模块 测试 数据分析 数据挖掘 表达式 数据结构 pattern github 神经网络

轻量级的网页Rank算法,365Rss.cn的Rank技术解释以及算法讨论(一)

写这片文章,是想讨论一下轻量级(相对于Google那种重型复杂的PageRank而言)的网页Rank算法。 一般而言,一个网页是否受欢迎,365Rss.cn所能想到的,应该涉及到3个分子因素:“点击量”、“回复量”、“用户评分”。

算法 数据挖掘 RSS

SimHash算法

由于实验室和互联网基本没啥关系,也就从来没有关注过数据挖掘相关的东西。在实际工作中,第一次接触到匹配和聚类等工作,虽然用一些简单的匹配算法可以做小数据的聚类,但数据量达到一定的时候就束手无策了。   所以,趁着周末把这方面的东西看了看,做个笔记。

算法 数据挖掘

渠道的力量

这两天iPhone的消息一浪高过一浪,乔老爷的策略不可以说不惊人,$199的定价让iPhone狠狠的扎进了千千万万果粉和准果粉的心,程序员跟风而上,天朝山寨伺机而动,一时间iPhone声名鹊起,传遍神州大地。

数据挖掘 google

1月19日云栖精选夜读:天文学+云计算,国家天文台-阿里云战略合作首年成果丰硕

国家天文台-阿里云天文大数据联合研究中心2017年度工作会议于2018年1月19日在杭州阿里巴巴西溪园区召开。国家天文台台长严俊,阿里云总裁胡晓明出席工作会议并共同开启了“天文数据挖掘”天池大赛。

大数据 安全 内存模型 阿里中间件 中间件 数据挖掘 云数据库 物联网 分布式数据库 单元测试 存储 日志分析 客服

81
GO