《智能数据时代:企业大数据战略与实战》一1.5 大数据环境下的处理分析工具

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介:

.本节书摘来自华章出版社《智能数据时代:企业大数据战略与实战》一书中的第1章,第1.5节,作者 TalkingData ,更多章节内容可以访问云栖社区“华章计算机”公众号查看

1.5 大数据环境下的处理分析工具

  1. Apache Hadoop
    Apache Hadoop(包括基于它的各种包装,以下通称Hadoop)是一种开源工具,它提供了处理大数据的新平台。虽然Hadoop已经存在一段时间了,但是越来越多的企业才刚刚开始利用其功能。Hadoop平台旨在解决大量数据造成的问题,特别是包含复杂结构化数据和非结构化数据的混合数据,这些数据不适合放在表中。Hadoop在需要深度分析和计算量大(如集群和定位)的情况下运行良好。

对于寻求利用大数据的决策者而言,Hadoop解决了与大数据相关的最常见的问题:以高效的方式存储和访问大量数据。
Hadoop的内在设计允许它作为一个平台运行,它能够在大量的分布式机器上工作。考虑到这一点,很容易看出Hadoop如何提供额外的价值:网络管理员可以只购买大量的商用服务器,然后安装并在每个服务器上运行Hadoop软件。
Hadoop有助于节省与大规模数据集有关的管理成本。从操作上看,组织的数据都加载在Hadoop平台上,Hadoop软件把数据分解成可管理的部分,同时把数据扩展到各个服务器上。分布式存储的特性意味着无法在一个地方获取全部的数据。Hadoop还可以追踪数据的存储位置,而且能够通过创建多个副本来维护数据。这就强化了数据存储的弹性,因为即使某个服务器掉线或损坏,数据也可以从已知的好的副本自动复制。
Hadoop的优势还表现在处理数据方面。例如,传统的集中式数据库系统存在很多限制,它需要一个连接到服务器级系统的大磁盘驱动器和具有多个处理器的驱动器。在这种情况下,数据分析就会受限于磁盘性能和处理器的数量。
而在一个Hadoop集群中,每个服务器都可以利用Hadoop的能力在整个集群中传播工作和数据,从而参与数据的处理。换句话说,索引工作通过向集群中的每个服务器发送代码,各个处理器就会对自己的内容进行检索,然后结果会被统一反馈回来。这在Hadoop中称为分布式计算,也就是代码或操作被分布到所有处理器上,而最终的结果精简成单一的集合。
Hadoop在处理大规模数据集时表现良好,关键就在于它将数据分散到各个处理器上,而且它能并行运行所有处理器来处理复杂运算问题。
然而,冒险进入Hadoop的世界并不是一种“即插即用”的体验。为确保成功有一些先决条件:硬件要求和环境配置。首先要做的就是了解和定义分析过程。大多数首席信息官都对商务分析(BA)和BI的流程相当熟悉,并能将其与最常用的过程层(提取、转换和加载ETL组件)相联系,这对于构建BA或BI解决方案至关重要。大数据的分析和操作需要企业先选定所要处理的数据集,整合它们,然后进入ETL程序进行处理。在这里需要处理大量的数据,而且这些数据可能是结构化的、非结构化的,或者是来自于不同渠道的数据资源,如社交网站、数据日志、门户网站、移动通信设备和传感器等。
要真正实现Hadoop的价值,需要把操作程序和注意事项结合起来(例如一个容错的集群架构,选用最贴合数据的计算方法,实现对数据集的并行计算或批处理),以及需要一个能够支持数据从存储到分析的企业级平台。
我们应该明白,并非所有的企业都需要用到大数据分析。我们也应该认真思考一下Hadoop的能力和作用。Hadoop并不能够依靠自身来完成一切,企业在搭建Hadoop平台之前,还要考虑除了Hadoop之外需要什么组件。
例如,企业运行Hadoop平台需要以下组件:数据管理组件HDFS和HBase、程序框架组件MapReduce和OOZIE,开发组件Pig和Hive,以及开源Pentaho。在这个小型试点项目中并不需要其他太多的硬件设备。其中硬件必需品有:两台多核服务器、至少24GB的运行内存,以及一个2TB的磁盘。这就足以推动一个小型试点项目运行起来。
Hadoop的有效运行和管理需要一定的专业知识和经验,如果这方面准备不足的话,就需要信息技术管理人员与能够提供全面技术支持的服务供应商进行合作。这方面的专业知识对于项目安全尤为重要。Hadoop、HDFS、HBase组件也需要安全防护。换句话说,进入Hadoop程序的数据仍然需要保护,以免丢失。
整体来看,Hadoop平台是对企业大数据分析实力进行检测的关键。而在完成检测之后,如何解决平台上大量的服务器托管问题,也就成为大数据领域所要继续探索的内容了。

  1. SmartDP
    Hadoop是数据挖掘的重要工具,但是它的使用对象是一线的数据挖掘者。对非数据分析企业而言,想要利用Hadoop等开源软件构筑自身完整的数据分析体系比较复杂,一方面是因为相关数据的缺失,另一方面则是因为搭建完善的数据分析体系并不容易。此外由于聘请高级专家的成本过高,许多公司更乐意引进数据分析工具。诸如SmartDP之类具有“自助服务”能力的大数据分析软件的出现,为企业跨越数据鸿沟提供了一个新方式。

SmartDP是基于智能数据应用探索商业价值的平台,它具有数据管理、数据工程和数据科学的能力,这三大能力是对数据分析平台最基础也是最重要的要求。
在数据管理方面,SmartDP为企业提供了元数据管理、数据存储、数据治理、数据清洗、数据质量管理、人员权限管理与数据安全维护。数据的存储与管理是企业数据运用的基础,SmartDP不仅能够协助企业进行一方数据的管理,还能充当数据的连接器,打通数据平台和数据市场,拓展企业所需的第三方数据,为企业深度挖掘商业价值提供丰富的数据环境。
在数据工程方面,SmartDP提供了多方数据接入、数据整合、数据运营、应用接入、数据分析、数据可视化呈现、数据结论和执行建议。内外部的数据整合为企业数据价值挖掘提供了丰富的原材料,但原材料只有经过恰当的数据处理才能转化为价值。SmartDP的特点在于帮助用户快速实现各类操作,找到最佳的数据价值挖掘方式。

image

数据科学是企业数据运用的重点与核心,SmartDP为没有数据管理平台和处理能力的用户提供了处理数据的平台与应用。SmartDP支持算法开发、算法接入、算法组合与算法自动调整(机器学习)。人工智能与开源算法的引进,为企业的数据应用与分析提供了多样性的选择与多水平的应用,满足不同企业、不同层次的需求。
从企业内部数据的产生到产品落地后产生的效果,SmartDP打通了企业数据的全链条,缩短了产业的价值链与决策链,许多之前必须通过外包才能解决的问题,现在可以利用内部数据分析平台完成决策,为企业提供直接可操作的结果。
从具体的产品形态看,目前SmartDP以DMP为基础,整合一方与三方数据,提供了如数据管家、用户管家、脉策、酷屏、人际地图等一系列产品应用。数据管家完成了数据的管理,从业务源头开始,对企业内外部的数据进行梳理与整合;脉策结合用户线上使用行为与线下活动轨迹,为房地产厂商提供最优的选址,帮助企业进行决策;酷屏能为企业提供简洁清晰的可视化图像,为用户提供直观展示;人际地图从用户的职、住、娱三个层面挖掘用户的行为轨迹,分析用户的消费水平与偏好,为企业营销提供最直接的决策推荐信息。而这些都只是SmartDP中的部分功能,外部算法与应用的接入意味着SmartDP能够实现更丰富的功能。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
36 0
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1
|
2月前
|
分布式计算 关系型数据库 数据库连接
MaxCompute数据问题之数据迁移如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
2月前
|
分布式计算 Cloud Native MaxCompute
MaxCompute数据问题之没有访问权限如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
11天前
|
数据采集 搜索推荐 大数据
大数据中的人为数据
【4月更文挑战第11天】人为数据,源于人类活动,如在线行为和社交互动,是大数据的关键部分,用于理解人类行为、预测趋势和策略制定。数据具多样性、实时性和动态性,广泛应用于市场营销和社交媒体分析。然而,数据真实性、用户隐私和处理复杂性构成挑战。解决策略包括数据质量控制、采用先进技术、强化数据安全和培养专业人才,以充分发挥其潜力。
14 3
|
14天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。
|
15天前
|
机器学习/深度学习 人工智能 安全
Azure Databricks实战:在云上轻松进行大数据分析与AI开发
【4月更文挑战第8天】Databricks在大数据分析和AI开发中表现出色,简化流程并提高效率。文中列举了三个应用场景:数据湖分析、实时流处理和AI机器学习,并阐述了Databricks的一体化平台、云原生弹性及企业级安全优势。博主认为,Databricks提升了研发效能,无缝集成Azure生态,并具有持续创新潜力,是应对大数据挑战和加速AI创新的理想工具。
40 0
|
1月前
|
分布式计算 DataWorks 关系型数据库
DataWorks报错问题之dataworks同步rds数据到maxcompute时报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。

热门文章

最新文章