NoSQL人气高涨 Spark功不可没

简介:

近年来,由于NoSQL数据库出现并用于处理大规模数据扩展,在线事务处理技术不断变化。同时,随着Hadoop和Spark的出现,经典分析模式被逐渐打破。

如今,应用程序来利用这些技术在大规模事务系统上创建接近实时的分析。尤其是接入NoSQL系统的Spark连接器正变得越来越普遍。

“就是我们正在用操作系统和分析系统改变我们正在做的事情,”分析师Mike Ferguson在上周Dataversity举办的一个讨论会上说。 Ferguson是位于一位英国的经营智能商业策略的总经理,他分享了将Spark与来自Basho Technologies的关键值Riak NoSQL数据存储相连,通过这种方法来对Web和移动数据的分析进行加速。

和Aerospike,Couchbase,DataStax,Redis Labs以及其他竞争对手一样,Basho也因此目的而涉足Spark连接器。

操作分析

Ferguson说把NoSQL和Hadoop以及Spark进行结合为他所谓的“操作分析”奠定了基础,相比起过去的分析系统,该系统不需要整夜都进行批处理任务。 多年来,关系型数据库都处于操作和分析系统之间循环的末端。但是随着Web和移动应用程序开始需要可扩展性(这种特性是通过运行分布式计算机集群获得的),情况就开始改变了。对于数据处理来说,页面是一回事,而移动又是另一回事。 通过移动接入事务系统,并发用户量激增到了前所未有的水平。

这使得团队要去尝试新的架构,而Spark则已经成为一个有力的竞争者。 Ferguson指出Spark和其他产品一样虽然通常是运行在Hadoop上,但是并不局限于Hadoop存储。它还可以访问关系型数据存储以及NoSQL数据存储。

这反过来就会支持应用Spark进行一系列的分析,“其中有些是操作分析,”他说。 就像Ferguson所形容的,操作分析试图利用分析来避免某些事件和优化流程。这可以让应用程序降低风险,改善客户交互并减少计划外运营成本。

A/B测试

用例 Intuit是一家网络财务和税务筹划服务提供商,NoSQL数据库与Spark分析引擎协作的一个案例就是出自这家公司。

Rekha Joshi是加州的一位软件工程师,她说,对于那些存储在DataStax Cassandra数据库(运行在Amazon Web Services云端)中的数据,Spark已经完成了分析。 她所描述的一个用例集中在访问者与Intuit网站首选交互方式的A/B测试上。其目标就是要更好地理解访问者的喜好并对个性化他们的页面视图和网站交互进行自动响应。 数以百万的网站用户生成了大量数据, Cassandra NoSQL有能力应对这样的变化。但Rekha Joshi说:“这并不是Cassandra真正的用武之地。Spark和Hadoop才是为此而生的。”

Intuit员工曾使用Spark和Hadoop。它们有着各自的性能优势和局限性,该工作对Spark有近乎实时的性能要求。Hadoop是一个批处理系统,而Spark则是实时的或是接近实时的。 Joshi所描述的路径与Ferguson的操作分析有一定相关性,但是她选择另外已有的术语来描述同时支持批处理和实时分析的架构,即,λ架构。 诸如Ferguson的分析和Joshi的用例给出了数据分析架构改变的一个视角。这在存储方面可能有更丰富的内容。

For NoSQL, there is considerable growth to come, according to Allied Market Research, which estimated that a global NoSQL market that barely existed 10 years ago will reach $4.2 billion by 2020. 根据Allied Market Research的预测,NoSQL会有非常迅速的增长。 10年前几乎不存在的全球NoSQL市场将会在2020年达到42亿美元的规模。 和Ferguson一样,Allied将Web、移动和电子商务应用程序作为NoSQL迅速发展的驱动力。与诸如Spark这些新的分析引擎进行对接也会有助于NoSQL的增长,会扩大NoSQL的可用度。
本文转自d1net(转载)

相关文章
|
存储 SQL 运维
涨姿势 | 一文读懂备受大厂青睐的ClickHouse高性能列存核心原理
本文尝试解读ClickHouse存储层的设计与实现,剖析它的性能奥妙
3102 0
涨姿势 | 一文读懂备受大厂青睐的ClickHouse高性能列存核心原理
|
5月前
|
存储 SQL Cloud Native
与创新者同行,Apache Doris in 2023
我们为大家整理了 Doris Summit Asia 2023 峰会的全程回顾视频和演讲资料,现在材料已开放下载,欢迎大家观看学习~
|
11月前
|
机器学习/深度学习 SQL 分布式计算
「大数据分析」寻找数据优势:Spark和Flink终极对决
「大数据分析」寻找数据优势:Spark和Flink终极对决
|
NoSQL 数据挖掘 分布式数据库
《第十二届 BigData NoSQL Meetup — 快手HBase在千亿级用户特征数据分析中的应用与实践》电子版地址
第十二届 BigData NoSQL Meetup — 快手HBase在千亿级用户特征数据分析中的应用与实践
92 0
《第十二届 BigData NoSQL Meetup — 快手HBase在千亿级用户特征数据分析中的应用与实践》电子版地址
|
SQL 分布式计算 运维
作为国内规模最大的 ClickHouse 用户,字节跳动踩过哪些坑?
ClickHouse 由于其性能方面的突出优势,正在分析型数据库领域掀起一波新的技术浪潮。
358 0
作为国内规模最大的 ClickHouse 用户,字节跳动踩过哪些坑?
|
大数据
【入门到精通,23天掌握Elasticsearch大数据实时搜索与分析能力】eBay技术大牛阮一鸣邀您免费听课
讲师:阮一鸣—— eBay Pronto平台技术负责人,现管理eBay 上百个集群,超过4000个数据节点规模,本节课从概念到实操,快速运用ELK进行搜索与大数据分析。同时可免费开通阿里云Elasticsearch(3节点1核2G)1个月,辅助您更好的学习课程。
1574 0
【入门到精通,23天掌握Elasticsearch大数据实时搜索与分析能力】eBay技术大牛阮一鸣邀您免费听课
|
NoSQL 运维 存储
ApacheCon 2019 Cassandra分会各大议题深度剖析,解读cassandra前沿工作
NGCC 2019摘要 下一代Cassandra会议(NGCC)是ApacheCon 2019大会中的一场分会。 它是由开发人员,贡献者,提交者,驱动程序作者以及对Apache Cassandra开发感兴趣的人组成的年度会议,他们可以聚在一起讨论Cassandra项目的技术和社区发展方向。
5448 0
|
存储 NoSQL
为什么Twitter不使用Cassandra存储Tweets(译),互联网营销
原文地址:http://highscalability.com/blog/2010/7/11/so-why-is-twitter-really-not-using-cassandra-to-store-tweets.html   当前讨论的中心是Cassandra作为NoSQL的主要产品已经被剥去了华丽的衣裳。
1642 0
|
SQL 物联网 大数据
|
SQL 物联网 大数据
HBase进化之从NoSQL到NewSQL,凤凰涅槃成就Phoenix
数据爆炸使得传统单机数据库面临一系列挑战,HBase作为NoSQL数据库,解决了大规模数据实时读写的难题。Phoenix项目在HBase的基础上增加了SQL语言表达,算子原地执行,二级索引,加盐表等特性,进化成为了NewSQL数据库,更好用也更强大。
9252 0