祝威廉 + 关注

祝威廉 发表了文章:

StreamingPro 再次支持 Structured Streaming

发布时间:2017-03-31 22:56:01 浏览:2024 回帖 :0

之前已经写过一篇文章,StreamingPro 支持Spark Structured Streaming,不过当时只是玩票性质的,因为对Spark 2.0+ 版本其实也只是尝试性质的,重点还是放在了s...

Json path 测试 spark scala test Socket csv

祝威廉 发表了文章:

StreamingPro支持Flink的流式计算了

发布时间:2017-03-31 22:52:58 浏览:1233 回帖 :0

有的时候我们只要按条处理,追求实时性而非吞吐量的时候,类似Storm的模式就比较好了。Spark 在流式处理一直缺乏改进,而Flink在流式方面做得很棒,两者高层的API也是互相借鉴,容易形成统一的感...

Json spark 流式计算 test file Socket

祝威廉 发表了文章:

StreamingPro 可以暴露出原生API给大家使用

发布时间:2017-03-31 22:49:55 浏览:1133 回帖 :0

我们知道StreamingPro 是一个完全SQL/Script化的,基于Spark平台的一套生产力工具。但是不可避免的,我们可能希望直接操作SqlContext或者使用原生的DataFrame AP...

Json 模块 path DataFrame API 脚本 test source file

祝威廉 发表了文章:

Spark之殇

发布时间:2017-03-31 22:48:08 浏览:1382 回帖 :0

一个开源产品,用户才是自己的最关键的。用户只关注了一个新的版本有什么新的功能,解决了老的什么痛点,并且提高了多少稳定性和速度,如此而已。至于内核的重构,API的统一,这不能成为自己全身心去投入的事情。...

深度学习 大数据 算法 SQL spark DataFrame Hive

祝威廉 发表了文章:

如何在命令行中指定StreamingPro的写入路径

发布时间:2017-03-31 22:46:31 浏览:1111 回帖 :0

如何在命令行中指定StreamingPro的写入路径?如何命令行指定输如输出的参数?本文就给出了详细的操作步骤。

mysql SQL path JDBC stream test file

祝威廉 发表了文章:

Spark与HBase的整合

发布时间:2017-03-31 22:44:10 浏览:1965 回帖 :0

之前因为仅仅是把HBase当成一个可横向扩展并且具有持久化能力的KV数据库,所以只用在了指标存储上,参看很早之前的一篇文章基于HBase做Storm 实时计算指标存储。这次将HBase用在了用户行为存...

hbase Json 配置 spark API string schema type 存储

祝威廉 发表了文章:

StreamingPro 简化流式计算配置

发布时间:2017-03-31 22:41:07 浏览:1249 回帖 :0

前些天可以让批处理的配置变得更优雅StreamingPro 支持多输入,多输出配置,现在流式计算也支持相同的配置方式了。另外未来等另外一个项目稳定,会释放出来配合StreamingPro使用,它可以让...

mysql SQL path 配置 spark 流式计算 JDBC Driver stream test file mapping csv

祝威廉 发表了文章:

StreamingPro 支持多输入,多输出配置

发布时间:2017-03-31 22:37:49 浏览:946 回帖 :0

最近正好有个需求,就是从不同的数据库以及表里拉出数据,经过一定的处理放到ES里供查询,最好还能放个到parquet里,这样可以支持更复杂的SQL。之前StreamingPro是只能配置一个数据源的,所...

SQL Json 数据库 path 配置 spark test file csv

祝威廉 发表了文章:

使用StreamingPro 快速构建Spark SQL on CarbonData

发布时间:2017-03-31 22:34:28 浏览:3165 回帖 :0

CarbonData已经发布了1.0版本,变更还是很快的,这个版本已经移除了kettle了,使得部署和使用 变得很简单,而且支持1.6+ ,2.0+等多个Spark版本。StreamingPro可以使...

mysql SQL http 数据库 request spark string JDBC url Driver Hive file

祝威廉 发表了文章:

物尽其用-让推荐系统成为你学习的助手

发布时间:2017-03-31 22:26:35 浏览:2089 回帖 :0

很多事物本身是有好有坏的,我们只要挑出里面好的,然后充分为我所用即可。“物尽其用”大体就是这个意思。

深度学习 大数据 推荐系统

祝威廉 发表了文章:

Spark Streaming 不同Batch任务可以并行计算么?

发布时间:2017-03-31 22:23:29 浏览:3130 回帖 :0

其实Job,Stage,Task都是Spark Core里就有的概念,Batch则是Streaming特有的概念。同一Stage里的Task一般都是并行的。同一Job里的Stage可以并行,但是一般如...

线程 spark string 并行计算 input

祝威廉 发表了文章:

机器的自我进化

发布时间:2017-03-31 21:41:10 浏览:1450 回帖 :0

一个神经网络就和人类的大脑一样,一开始它什么都不是,没办法解决任何任务,为了能够让它具体完成一些任务,成为某个领域的专家,我们也要像对待学生一样,不断的灌输数据,以及我们要达到的目标,那么神经网络内部...

深度学习 大数据 算法 函数 神经网络

祝威廉 发表了文章:

研发的两观,全局观和产品观

发布时间:2017-03-31 21:39:42 浏览:799 回帖 :0

所谓产品观,其实也就是全局观的一个具体实施策略,只是这种实施策略执行在某一个产品的生命周期里。前面我们提到,一件事情最重要的部分其实是找到如何衡量做的好不好的标准,产品观给我们找到了这个衡量标准,就是...

祝威廉 发表了文章:

推荐系统之眼

发布时间:2017-03-31 21:38:07 浏览:1836 回帖 :0

这半个月除了工作上的事,一直忙于学习机器学习基础理论,每天背着四五本书上下班,还蛮有读书时的感觉。之前写了一篇文章,叫基于用户画像的实时异步化视频推荐系统,应该说只是完成了一个心脏,整个数据集经过心脏...

算法 监控 模块 运营 推荐引擎 推荐系统 千人千面

祝威廉 发表了文章:

提交PR的git 流程

发布时间:2017-03-31 21:34:50 浏览:1994 回帖 :0

上次花了点时间让CarbonData集成到StreamingPro中,方便大家更快速的体验到CarbonData的好处,集成完毕后就写了篇文章:让CarbonData使用更简单 文章里面有下载链接,下...

HTTPS Apache git url Commit github

祝威廉 发表了文章:

基于用户画像的实时异步化视频推荐系统

发布时间:2017-03-31 21:29:16 浏览:1972 回帖 :0

这个月做的事情还是蛮多的。上线了一个百台规模的ES集群,还设计开发了一套实时推荐系统。 标题有点长,其实是为了突出该推荐系统的三个亮点,一个是实时,一个是基于用户画像去做的,一个是异步化。

算法 服务器 配置 集群 spark 流式计算 推荐系统

祝威廉 发表了文章:

让CarbonData使用更简单

发布时间:2017-03-31 21:24:01 浏览:3703 回帖 :0

Apache CarbonData是一种新的高性能数据存储格式,针对当前大数据领域分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持“任意维度...

SQL Json spark Core xml stream Hive test file 数据存储

祝威廉 发表了文章:

StreamingPro 支持Spark Structured Streaming

发布时间:2017-03-31 21:17:25 浏览:1147 回帖 :0

Structured Streaming 的文章参考这里: Spark 2.0 Structured Streaming 分析。2.0的时候只是把架子搭建起来了,当时也只支持FileSource(监控...

Json 配置 Algorithm spark 流式计算 DataFrame test source file bootstrap

祝威廉 发表了文章:

Elasticsearch 漫谈

发布时间:2017-03-31 21:12:09 浏览:1778 回帖 :0

之前在研究ElasticSearch的时候,发现竟然已经有七篇文章了。这些文章通常都是遇到了问题,于是去研读相关代码,试图搞清楚里面的机制,顺带记录下来而成文的。如果加上一些黏边的文章,譬如ELK的崛...

性能 线程 索引 Elasticsearch CPU 磁盘 Commit

祝威廉 发表了文章:

程序员效率的奥义

发布时间:2017-03-31 21:00:36 浏览:1053 回帖 :0

为了提高效率,我特别重视如下几点:工具化、预见和练习、打破惯性和让你身边的人也高效起来。

java 程序员 web spark scala 开发框架

3
暂未提供

感兴趣or擅长的领域:

暂无
更多>
更多>
sjynegh
sjynegh
文章:1丨 粉丝:0丨 话题:0
游客mymlztwgkjhcy
游客mymlztwgkjhcy
文章:0丨 粉丝:0丨 话题:0
1231803022381659
1231803022381659
文章:0丨 粉丝:0丨 话题:0
图拉丁吧
图拉丁吧
文章:0丨 粉丝:0丨 话题:0
kevintop
kevintop
文章:0丨 粉丝:0丨 话题:0
frankccshen
frankccshen
文章:0丨 粉丝:0丨 话题:0