《MapReduce 2.0源码分析与编程实战》一1.2 大数据分析时代

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
简介:

本节书摘来异步社区《MapReduce 2.0源码分析与编程实战》一书中的第1章,第1.2节,作者: 王晓华 责编: 陈冀康,更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.2 大数据分析时代

如果我们把大数据比作一块未经开发的沃土,那么只有经过耕耘收获的果实才能够算得上是真正获得了沃土的回报。换言之,如果把大数据比作一块沃土,那么只有强化对土地的“耕耘”能力,才能通过“加工”实现数据的“增值”。

随着“大数据时代”的开启,对大数据本身的处理和分析越来越为生产者和商业者所看重。但是问题在于,相比于拥有较长历史的数据库分析和传统数据分析,大数据分析具有待数据量特别巨大、算法分析特别复杂等特点。

一般来说,大数据分析需要涉及以下4个方面。

  • 有效的数据质量。任何数据分析都来自于真实的数据基础,而一个真实数据是采用标准化的流程和工具对数据进行处理得到的,可以保证一个预先定义好的高质量的分析结果。
  • 优秀的分析引擎。对于大数据来说,数据的来源多种多样,特别是非结构化数据来源的多样性给大数据分析带来了新的挑战。因此,我们需要一系列的工具去解析、提取、分析数据。大数据分析引擎就是用于从数据中提取我们所需要的信息。
  • 合适的分析算法。采用合适的大数据分析算法能让我们深入数据内部挖掘价值。在算法的具体选择上,不仅仅要求能够处理的大数据的数量,还涉及对大数据处理的速度。
  • 对未来的合理预测。数据分析的目的是对已有数据进行总结,并且将现象与其他情况紧密连接在一起,从而获得对未来的预测。大数据分析也是如此。不同的是,在大数据分析中,数据来源的基础更为广泛,需要处理的方面更多。

由这些方面可以知道,大数据分析是数据分析最前沿的技术。这种新的数据分析是目标导向的,不用关心数据的来源和具体格式,能够根据我们的需求去处理各种结构化、非结构化和半结构化数据,配合使用合适的分析引擎,能够输出有效结果,提供一定的对未来趋势的预测分析服务,能够面向更广泛的普通员工快速部署分析应用。

长期以来,对数据的统计分析使用的还是一般传统的关系型数据库分析技术。不得不说,关系型数据库从诞生到今天,经历了50年的发展,已经成为一门成熟的、至今仍旧具有一定活力的数据分析管理技术。

但是,由于关系型数据库天生的缺陷,其丧失了在互联网大数据时代的机会,原因主要是其传统的关系型数据管理模型的扩展无法与如今的大数据进行很好的融合,不能满足大数据的要求。对于关系型数据库来说,其追求的是高度一致性和数据正确性。而这恰恰制约了其扩展能力,无法实现任意的存储容量扩展和本身处理能力的加强,使之无法满足互联网时代的大数据分析需求。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
14天前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
27天前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
1月前
|
存储 消息中间件 大数据
Go语言在大数据处理中的实际应用与案例分析
【2月更文挑战第22天】本文深入探讨了Go语言在大数据处理中的实际应用,通过案例分析展示了Go语言在处理大数据时的优势和实践效果。文章首先介绍了大数据处理的挑战与需求,然后详细分析了Go语言在大数据处理中的适用性和核心技术,最后通过具体案例展示了Go语言在大数据处理中的实际应用。
|
1月前
|
数据采集 运维 数据挖掘
API电商接口大数据分析与数据挖掘 (商品详情店铺)
API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中,各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。
|
3月前
|
关系型数据库 MySQL Serverless
高顿教育:大数据抽数分析业务引入polardb mysql serverless
高顿教育通过使用polardb serverless形态进行数据汇总,然后统一进行数据同步到数仓,业务有明显高低峰期,灵活的弹性伸缩能力,大大降低了客户使用成本。
|
3月前
|
机器学习/深度学习 数据采集 算法
大数据分析技术与方法探究
在当今信息化时代,数据量的增长速度远快于人类的处理能力。因此,如何高效地利用大数据,成为了企业和机构关注的焦点。本文将从大数据分析的技术和方法两个方面进行探究,为各行业提供更好的数据应用方向。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
大数据分析的技术和方法:从深度学习到机器学习
大数据时代的到来,让数据分析成为了企业和组织中不可或缺的一环。如何高效地处理庞大的数据集并且从中发现潜在的价值是每个数据分析师都需要掌握的技能。本文将介绍大数据分析的技术和方法,包括深度学习、机器学习、数据挖掘等方面的应用,以及如何通过这些技术和方法来解决实际问题。
47 2
|
3月前
|
机器学习/深度学习 人工智能 运维
大数据分析:探索信息世界的钥匙
在当今信息爆炸的时代,大数据分析成为挖掘宝藏般的技术和方法。本文将介绍大数据分析的基本概念、技术与方法,并探讨其在商业、科学和社会领域中的广泛应用。从数据收集和预处理到模型构建和结果解读,大数据分析为我们揭示了信息世界的钥匙,为决策者提供了有力的支持。
|
2月前
|
API
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
104 0
|
数据采集 数据可视化 算法
电商API接口的大数据分析与挖掘技巧
随着电商行业的快速发展,电商平台上的交易数据量也越来越大。如何对这些数据进行分析和挖掘,从中获取有价值的信息,已经成为电商企业和开发者关注的重点。本文将介绍电商API接口的大数据分析与挖掘技巧。

热门文章

最新文章