skyme张 + 关注

skyme张 发表了文章:

批处理框架

发布时间:2017-09-15 09:55:00 浏览:910 回帖 :0

什么是批处理? 在现代企业应用当中,面对复杂的业务以及海量的数据,除了通过庞杂的人机交互界面进行各种处理外,还有一类工作,不需要人工干预,只需要定期读入大批量数据,然后完成相应业务处理并进行归档。这...

监控 高并发 spring 基础设施 配置 集群 多线程 存储过程 企业应用 工作流 海量数据

skyme张 发表了文章:

智能分单算法

发布时间:2017-06-30 14:54:00 浏览:583 回帖 :0

算法描述 目前在物流,企业用工等领域,都有着大量的通过算法对接到的订单进行智能分配的需求。本文模拟的是用户下订单,然后商家接到订单,由配送人员进行派送的场景。在实际的应用中类似于百度外卖等有着非常多...

算法 Algorithm ADD string Driver void

skyme张 发表了文章:

海量数据处理利器greenplum——初识

发布时间:2016-08-17 14:27:00 浏览:566 回帖 :0

简介及适用场景 如果想在数据仓库中快速查询结果,可以使用greenplum。 Greenplum数据库也简称GPDB。它拥有丰富的特性: 第一,完善的标准支持:GPDB完全支持ANSI SQL ...

架构 PostgreSQL Greenplum hadoop SQL 高可用 数据库 互联网 性能监控 数据仓库 集群 主机 分布式计算 分布式文件系统 海量数据处理

skyme张 发表了文章:

使用R画地图数据

发布时间:2016-02-04 18:01:00 浏览:432 回帖 :0

用R画地图数据 首先,从这里下载中国地图的GIS数据,这是一个压缩包,完全解压后包含三个文件(bou2_4p.dbf、bou2_4p.shp和bou2_4p.shx),将这三个文件解压到同一个目录下...

函数

skyme张 发表了文章:

跟我一起ggplot2(1)

发布时间:2015-08-12 18:12:00 浏览:426 回帖 :0

ggplot2 R的作图工具包,可以使用非常简单的语句实现非常复杂漂亮的效果。 qplot 加载qplot library(ggplot2) # 测试数据集,ggplot2内置的钻石...

skyme张 发表了文章:

一文搞懂HMM(隐马尔可夫模型)

发布时间:2015-07-16 14:52:00 浏览:444 回帖 :0

什么是熵(Entropy) 简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和...

算法 序列

skyme张 发表了文章:

借助亚马逊S3和RapidMiner将机器学习应用到文本挖掘

发布时间:2015-07-15 18:39:00 浏览:289 回帖 :0

本挖掘典型地运用了机器学习技术,例如聚类,分类,关联规则,和预测建模。这些技术揭示潜在内容中的意义和关系。文本发掘应用于诸如竞争情报,生命科学,客户呼声,媒体和出版,法律和税收,法律实施,情感分析和趋...

基础设施 存储 文本分析

skyme张 发表了文章:

跟我一起hadoop(1)-hadoop2.6安装与使用

发布时间:2015-06-28 21:31:00 浏览:431 回帖 :0

伪分布式 hadoop的三种安装方式: Local (Standalone) Mode Pseudo-Distributed Mode Fully-Distributed Mode 安装...

java hdfs hadoop Apache eclipse 配置 reduce static class 插件 Security Mapreduce

skyme张 发表了文章:

众推项目的最近讨论

发布时间:2015-04-30 13:22:00 浏览:361 回帖 :0

openKM 想问下有没有这样的开源文件管理系统,所有人都可以上传文件,只有有权限的管理员才可以下载他人的文件? 不知道openkm能不能做到。 OpenKM是一个开放源代码的电子文档管理系统,...

深度学习 架构 个性化推荐 持续集成 git oschina 推荐引擎

skyme张 发表了文章:

基于java的分布式爬虫

发布时间:2015-04-20 10:35:00 浏览:700 回帖 :0

分类 分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载...

分布式 架构 算法 java 监控 模块 互联网 测试 git 带宽 oschina

skyme张 发表了文章:

跟我一起数据挖掘(23)——C4.5

发布时间:2015-03-31 16:22:00 浏览:287 回帖 :0

C4.5简介 C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的...

算法 排序 数据挖掘

skyme张 发表了文章:

众推架构的进一步讨论

发布时间:2015-03-27 14:35:00 浏览:327 回帖 :0

讨论内容 昨天的架构基本确定成如下图所示: 针对此架构,大家分别提了不同的看法: 【大侠】秦刘 9:53:58  工作节点的爬虫 应该就是普通的一个cmd形式的小程序,对不对? 【大...

分布式 redis 架构 hadoop url 插件 存储

skyme张 发表了文章:

分布式爬虫技术架构

发布时间:2015-03-26 19:13:00 浏览:265 回帖 :0

Spiderman Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等...

分布式 架构 web 多线程 表达式 插件 存储

skyme张 发表了文章:

众推项目的文档分享流程

发布时间:2015-03-25 17:51:00 浏览:304 回帖 :0

文档分享流程 今天在群里与大家讨论,想一个比较合理的分享流程。 我想看到流程应该是挺清楚了,就不再多加文字方面的解释了! 有想参与的可以一起进来讨论 群号 194338168 想深度参与的...

skyme张 发表了文章:

众推平台架构——分布式爬虫

发布时间:2015-03-24 11:34:00 浏览:446 回帖 :0

分布式爬虫架构 经过新一轮的投票,项目的范围已经基本确定。 大家决定 全力以付,集中攻克“分布式爬虫”。 分布式爬虫架构1 使用队列,即生产者,消费都模式。 由于生产者将规则生成到队...

分布式 架构 hadoop 配置 集群 平台架构 多线程

skyme张 发表了文章:

数据挖掘开源项目立项

发布时间:2015-03-23 10:53:00 浏览:287 回帖 :0

项目背景 因为最近一直都在搞数据挖掘类的项目,且现在国内的大数据潮火热。在前几天与群里的几位兄弟聊天所以有了做一个开源项目的想法,以前也搞过一个开源的项目,当时只是想把权限集中化做一下,项目的名称和...

大数据 个性化推荐 数据挖掘 大数据分析 推荐系统

skyme张 发表了文章:

跟我一起数据挖掘(22)——spark入门

发布时间:2015-03-14 23:48:00 浏览:337 回帖 :0

Spark简介 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的优点;但不同于Map...

大数据 hadoop Json reduce 数据挖掘 spark scala

skyme张 发表了文章:

跟我一起数据挖掘(21)——redis

发布时间:2015-03-08 11:31:00 浏览:321 回帖 :0

什么是Redis Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。从2010年3月15日起,Redis的开发...

redis java 数据挖掘 Framework string static void jedis 存储 数据类型

skyme张 发表了文章:

跟我一起数据挖掘(20)——网站日志挖掘

发布时间:2015-03-05 15:57:00 浏览:329 回帖 :0

收集web日志的目的 Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未...

javascript 服务器 日志 数据库 web 浏览器 数据挖掘 序列 日志分析

skyme张 发表了文章:

跟我一起数据挖掘(19)——什么是数据挖掘(2)

发布时间:2015-03-03 11:36:00 浏览:289 回帖 :0

什么是数据仓库? 数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反映历史变化( Time Variant...

算法 数据仓库 数据挖掘

3
暂未提供

感兴趣or擅长的领域:

暂无
更多>
更多>
zz2019
zz2019
文章:0丨 粉丝:2丨 话题:0
赢博赛尔
赢博赛尔
文章:0丨 粉丝:0丨 话题:0
cnory
cnory
文章:0丨 粉丝:0丨 话题:0
1494689343848549
1494689343848549
文章:1丨 粉丝:1丨 话题:0
杂学
杂学
文章:0丨 粉丝:0丨 话题:0
ttkks
ttkks
文章:0丨 粉丝:0丨 话题:0