《大数据分析原理与实践》一一1.5 全书概览

简介: 本节书摘来自华章出版社《大数据分析原理与实践》一 书中的第1章,第1.5节,作者:王宏志 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.5 全书概览
本书将较为全面地描述大数据分析的模型、技术、实现与应用。其中第2~7章介绍大数据分析模型,包括关联分析模型、分类分析模型、聚类分析模型、结构分析模型和文本分析模型;第8~11章介绍大数据分析相关的技术,包括大数据预处理、特征选择和降维方法、面向大数据的数据仓库和大数据分析算法。第12~14章介绍三种用于实现大数据分析算法的平台,分别是大数据计算平台、流式计算平台和大图计算平台;第15~16章介绍两类大数据分析的具体应用,分别讲述社会网络和推荐系统。
第2章是大数据分析建模的基础,介绍了大数据模型建立方法、支持大数据分析的基本统计量以及推断统计和假设检验方法,为后面的大数据分析奠定理论基础。
第3~5章介绍了多维数据分析模型。
第3章介绍关联分析模型,用于分析变量之间的关联关系。根据变量的类型(离散或者连续)可以用回归或者关联规则来描述关联关系,因而这一章描述了这两方面的模型。
第4章介绍分类分析模型,用于对数据进行分类。根据分类的策略介绍了基于统计的判别分析方法和基于人类学习行为模拟的机器学习方法。
第5章介绍聚类分析模型,与分类分析模型的有监督分析不同的是,聚类模型是无监督分析,在没有训练样例的情况下进行分析。这一章中介绍了聚类分析的定义、类别、评价方法、计算方法概述以及应用。
第6章介绍半结构化数据(即图数据)的分析模型,包括了几类重要的图分析模型,即最短路径、链接排名、结构计数、结构聚类和社团发现。
第7章介绍非结构化数据(即文本)的分析模型,包括了几类常用的文本分析模型,即TF-ID模型、词频统计、PLDA、Word2Vec和分词。
第8章和第9章从两个不同角度介绍为大数据分析进行数据准备的技术。如果把输入的数据看成一张表,第8章介绍从“行”的角度进行数据准备,即进行数据的抽样、过滤、标准化、归一化以及数据的清洗;第9章介绍从“列”的角度进行数据准备,即从大数据中选择恰当的属性进行分析。
第10章介绍面向大数据的数据仓库系统,概述数据仓库技术并介绍多种针对不同场景的数据仓库系统。
第11章介绍大数据分析算法。在概述大数据分析算法的同时,介绍基于MapReduce编程模型的回归算法、关联规则挖掘算法、分类算法和聚类算法,分别和第3~5章中的模型相对应。
第12章介绍5种大数据计算平台,这些计算平台用于计算通用的计算任务,针对大数据Volume特性提出,侧重于面向大数据的高可扩展计算和高效率计算。大数据分析任务可以用这些平台实现。
第13章介绍4种流式计算平台,用于处理流式计算这类大数据分析计算任务,针对大数据Velocity特性提出,侧重处理源源不断更新的大数据。增量大数据分析任务可以用这些平台实现。
第14章介绍5种大图计算平台,用于处理大图计算任务,面向大数据Volume特性在大图上实现高效计算,可用于实现大部分第6章中提出的大图分析模型。
第15章介绍社交网络分析技术,这是目前大数据分析领域的热点应用之一,除了介绍基本概念外,还介绍几种不同角度提出的社交网络分析技术。
第16章介绍推荐系统,这是目前大数据分析创造价值的重要途径,在介绍推荐系统基本概念的同时,介绍不同思路、不同对象的推荐系统,还结合第15章介绍社交网络中的推荐技术。
本书各章节的关系如图1-1所示。
image

图1-1 本书结构图
数据分析常用工具包括R语言、SPSS等,一些传统数据分析的教材中介绍了这些工具,本书不再赘述。本书将以阿里云——?一种针对“大”数据分析的工具为平台进行介绍,该平台提供了支持大数据分析中数据管理的分析型数据库、支持大数据分析中数据密集型计算的大数据计算服务以及一系列大数据分析所需要的算法,例如特征选择算法、机器学习算法以及大数据可视化功能。
小结
本章概述了大数据和大数据分析的相关知识。首先在1.1节介绍了大数据的定义、应用背景和“4V”特征,让读者对于大数据概念有更为清晰的认识。接下来,1.2节介绍了大数据的应用场景,从中可以看出大数据是无处不在的,并且对于政治、经济、工业生产、科学研究等有着巨大的影响。1.3节介绍了大数据分析的定义和应用,大数据分析使得大数据体现出其特有的价值,也带来了新的思维方式。1.4节讨论了大数据分析中的技术和难点,介绍了大数据分析的过程,包括业务理解、数据理解、数据准备、建模、评估和部署,紧接着介绍了大数据分析涉及的一系列技术,包括数据采集、数据管理、基础架构、数据理解和提取、统计分析、数据挖掘和数据可视化等。最后讨论了大数据分析中的难点,包括可扩展性、可用性、领域知识的结合和结果的检验。
习题

  1. 在我们身边有哪些大数据?在这些大数据上有哪些分析任务?
  2. 比较“分析”“机器学习”和“数据挖掘”的异同。
  3. 比较电子商务和工业生产中大数据分析任务的异同。
  4. 在线电子商务网站(如淘宝、京东等)可以通过用户行为大数据进行分析以提高其销量,按照大数据分析的过程完成此大数据分析任务,其行为数据的模式可以从网站观察得到。
  5. 试论述大数据分析对大数据管理提出的新要求。
  6. 大数据分析对技术提出了何种挑战?根据你的经验论述这些挑战应当如何应对。
  7. 大数据分析中的“分析”和下面哪句话中的“分析”含义最相近?
    (1) “又於帝前聚米为山谷,指画形埶,开示众军所从道径往来,分析曲折,昭然可晓。”(《后汉书·马援传》)

(2) “御史司宪崔沂劾奏:‘彦卿杀人阙下,请论如法。’帝命彦卿分析。”(《资治通鉴·后梁太祖开平四年》)
(3) “于时内慢神器,外侮戎狄。君子横流,庶萌分析。”(《宋书·谢灵运传》)
(4) “臣闻《诗》、《书》、《礼》、《乐》,定自孔子;发明章句,始於子夏。其后诸家分析,各有异说。”(《后汉书·徐防传》)

  1. 有人说“大数据分析更注重关联关系而并非因果关系”,请辨析这句话。
  2. 你认为“分析”的反义词是什么?为什么?
  3. 试论述可视化在大数据分析过程中可能起到的作用。
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
SQL 数据采集 供应链
Python结构化数据分析工具Pandas之Pandas概览
Pandas是做数据分析最核心的一个工具。我们要先了解数据分析,才能更好的明白Pandas。
182 0
|
数据挖掘
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言(八)
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言
|
安全 数据挖掘 大数据
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言(七)
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言
|
安全 大数据 数据挖掘
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言(六)
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言
|
敏捷开发 数据挖掘 BI
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言(六)
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言(六)
|
敏捷开发 数据挖掘
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言(五)
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言(五)
|
敏捷开发 数据挖掘 测试技术
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言(四)
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言
|
安全 数据挖掘 测试技术
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言(三)
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言(三)
|
敏捷开发 数据挖掘
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言(二)
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言(二)
|
数据挖掘 BI 数据库
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言(一)
《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言(一)
带你读《SAS数据分析开发之道 软件质量的维度》第一章概览1.1引言(一)