大数据炙手可热 你的数据管理还OK吗?

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介:

近年来,由于NoSQL数据库出现并用于处理大规模数据扩展,在线事务处理技术不断变化。同时,随着Hadoop和Spark的出现,经典分析模式被逐渐打破。

如今,应用程序来利用这些技术在大规模事务系统上创建接近实时的分析。尤其是接入NoSQL系统的Spark连接器正变得越来越普遍。

“就是我们正在用操作系统和分析系统改变我们正在做的事情,”分析师Mike Ferguson在上周Dataversity举办的一个讨论会上说。

Ferguson是位于一位英国的经营智能商业策略的总经理,他分享了将Spark与来自Basho Technologies的关键值Riak NoSQL数据存储相连,通过这种方法来对Web和移动数据的分析进行加速。

和Aerospike,Couchbase,DataStax,Redis Labs以及其他竞争对手一样,Basho也因此目的而涉足Spark连接器。

操作分析

Ferguson说把NoSQL和Hadoop以及Spark进行结合为他所谓的“操作分析”奠定了基础,相比起过去的分析系统,该系统不需要整夜都进行批处理任务。

多年来,关系型数据库都处于操作和分析系统之间循环的末端。但是随着Web和移动应用程序开始需要可扩展性(这种特性是通过运行分布式计算机集群获得的),情况就开始改变了。对于数据处理来说,页面是一回事,而移动又是另一回事。

通过移动接入事务系统,并发用户量激增到了前所未有的水平。这使得团队要去尝试新的架构,而Spark则已经成为一个有力的竞争者。

Ferguson指出Spark和其他产品一样虽然通常是运行在Hadoop上,但是并不局限于Hadoop存储。它还可以访问关系型数据存储以及NoSQL数据存储。

这反过来就会支持应用Spark进行一系列的分析,“其中有些是操作分析,”他说。

就像Ferguson所形容的,操作分析试图利用分析来避免某些事件和优化流程。这可以让应用程序降低风险,改善客户交互并减少计划外运营成本。

A/B测试用例

Intuit是一家网络财务和税务筹划服务提供商,NoSQL数据库与Spark分析引擎协作的一个案例就是出自这家公司。

Rekha Joshi是加州的一位软件工程师,她说,对于那些存储在DataStax Cassandra数据库(运行在Amazon Web Services云端)中的数据,Spark已经完成了分析。

她所描述的一个用例集中在访问者与Intuit网站首选交互方式的A/B测试上。其目标就是要更好地理解访问者的喜好并对个性化他们的页面视图和网站交互进行自动响应。

数以百万的网站用户生成了大量数据, Cassandra NoSQL有能力应对这样的变化。但Rekha Joshi说:“这并不是Cassandra真正的用武之地。Spark和Hadoop才是为此而生的。”

Intuit员工曾使用Spark和Hadoop。它们有着各自的性能优势和局限性,该工作对Spark有近乎实时的性能要求。Hadoop是一个批处理系统,而Spark则是实时的或是接近实时的。

Joshi所描述的路径与Ferguson的操作分析有一定相关性,但是她选择另外已有的术语来描述同时支持批处理和实时分析的架构,即,λ架构。

诸如Ferguson的分析和Joshi的用例给出了数据分析架构改变的一个视角。这在存储方面可能有更丰富的内容。

For NoSQL, there is considerable growth to come, according to Allied Market Research, which estimated that a global NoSQL market that barely existed 10 years ago will reach $4.2 billion by 2020.

根据Allied Market Research的预测,NoSQL会有非常迅速的增长。 10年前几乎不存在的全球NoSQL市场将会在2020年达到42亿美元的规模。

和Ferguson一样,Allied将Web、移动和电子商务应用程序作为NoSQL迅速发展的驱动力。与诸如Spark这些新的分析引擎进行对接也会有助于NoSQL的增长,会扩大NoSQL的可用度。

采用大数据系统后,数据管理是如何随着整体数据环境的变化进行规划和执行的?Lakshmi Randall顾问分享了自己的观点。

过去的几年里,数据环境的变化不会在短时间内产生影响。随着大数据系统的扩张,数据行业的一些基本原则逐渐改变。这些变化需要数据专业人员具备很强的灵活性。近20年里,Lakshmi Randall花费了大量时间研究数据准备和质量问题。

将数据仓库与数据湖拿来做比较是有意义的。数据环境逐渐改变,你如何看待今天的数据仓库和数据湖之间的关系?

Lakshmi Randall:数据从收集到分析都是逐步完成的。当你理解了数据,当它实现结构化并且源于熟悉数据源时,线性方法就能发挥作用。

但在大数据环境下,对于半结构化或非结构化的数据,比如医生或保险索赔表单数据,线性方法不再可行。想要分析这些数据,必须找到数据源,完成数据归档并充分理解数据的意义。

你可以把获得的数据移动到数据仓库,或者直接舍弃无用数据。我认为随着数据环境的变化,不应该仅仅停留在线性的方法上,而是要思考发现和探索更多的方法。这样在处理或存储数据时,你才能采用最佳的方法。

数据环境的变化也带来了新的数据类型。我们应该拥抱不同的、合理的数据体系结构。数据治理仍然非常重要,但是你必须有一定程度的敏捷性和灵活性。

似乎越来越多不同类型的用户需要更多的IT支持,比如类固醇类药物的使用者。

Randall:不同的用户案例需要不同的策略。数据变成迭代过程的一部分,面对不同的用户必须“随机应变”,当然,日常分析也是如此。不同的用户也许是你所说的类固醇类药物的使用者或数据挖掘用户或数据科学家,也许是将某个领域理论知识实践相结合的复合型角色。

为什么要使用NoSQL?

Randall:当你掌握了真正的数据关系,在进行数据建模时更有驱动力,数据建模是不同于传统的关系数据库。这是使用NOSQL数据库的一个很好的例子。

例如,使用NOSQL可以帮助我们发现客户案例中隐藏的特殊关系,因为它存储的数据最接近自然的形式,而不是将数据转换为行和列。人们发现,有一些使用案例会将NoSQL数据库作为优先选项,这一切都与数据的性质有关。如果属于关系数据,那么关系数据库和数据仓库是更好的候选项。

如今,数据行业横跨IT业务。而现实情况是企业需要全能型人才——拥有数据分析能力、定性能力,同时又是领域专家、工艺专家、数据科学家、数据管家等,他们可以帮助企业实现多项业务目标。 

本文转自d1net(转载)


相关文章
|
3月前
|
数据采集 数据管理 大数据
【电力大数据】浅谈电力行业元数据管理
【电力大数据】浅谈电力行业元数据管理
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1
|
2月前
|
分布式计算 关系型数据库 数据库连接
MaxCompute数据问题之数据迁移如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
34 0