《微软System Center 2012 R2私有云部署实战》——第一章 微软私有云概述1.1 大数据

简介:

本节书摘来自异步社区《微软System Center 2012 R2私有云部署实战》一书中的第1章,第1.1节,作者: 九叔 更多章节内容可以访问云栖社区“异步社区”公众号查看。

第一章 微软私有云概述

微软私有云解决方案是在软件层面使用Windows Server 2012 R2和System Center 2012 R2进行构建的,提供了企业对虚拟化、集中服务器管理、应用程序部署、自动化等功能的深入探索,使用户将精力从运维上解放出来,进而更集中地去处理业务和提升业务价值。

这种组合通过Windows Server 2012 R2作为底层虚拟化架构,并以System Center 2012 R2进行深度的整合、管理、运维,从而完成单一的虚拟化向私有云的转变。本章将介绍大数据、云计算、私有云以及微软私有云这几个重要概念以及它们之间的联系,方便读者理解接下来的章节。

1.1 大数据

1.1.1 大数据的定义
作为最火的IT名词之一,“大数据”渐渐走入众人视界。大数据(Big Data),指的是所涉及的资料数据量巨大,已经无法通过主流软件工具,在合理时间内完成处理并进行商业价值转换的信息。

1.1.2 大数据的4V
当然,数据不仅仅是量够“大”就能称得上是“大数据”。尽管大数据拥有多种形式,但有四个特征已经得到公认:

数据体量巨大,原始数据从TB级上升至PB;
数据类型繁多,不仅仅包含文字、视频、音乐,只要能够通过分析得到价值,均在其范畴内;
价值密度低,商业价值高。以网站的PV、UV的详细数据为例,单一的原始数据并没有价值,同时计算该数据需要多次重复运算,但最终得到的结果商业价值较高;
处理速度快,符合1秒定律。最后这一点和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume、Variety、Value、Velocity。
1.1.3 数据清洗
大数据的根基是海量数据,但海量数据仅仅是原始数据,数据清洗是分析大数据时首先要做的工作,如“微软大厦 中关村”“海淀区丹棱街5号”“丹棱街5号微软大厦”,这些信息均代表一个物理位置,在进行海量数据分析之前,将这些似是而非的信息标准化,是得出正确分析结果的基石。事实上我们面临的不是一些简单的文字方面的整合,如果地名存在于数据库中,显然是非常容易重新排列的。但假如重要信息是在一个Word文件中、PDF文件中,甚至是一张图片中呢?数据清洗的工作远没有我们想象的那么简单。

1.1.4 大数据的商业价值
什么是大数据,大数据能为我们做什么?

某电商通过分析,发现某些特殊商品在早上10点至11点成交量要超过晚上7点以后,同时在成交时间段内,北京国贸地区的用户购买人次明显超越其他地区。于此,企业可以对下一步在百度投放广告的时间段和力度进行一个优化组合。很明显,同样的广告预算费用,集中在可以预见的购物高峰时段中,更容易促进成单。

我们在公交站等车,每辆车在早晚高峰途经哪些写字楼、商圈、厂房,这些人集中在哪里上车、哪里下车,公交车中播放什么广告更容易让用户感兴趣?广告商联系哪些广告主更容易成单?

这些问题的结果可能都是短短的几句话,几行字,但获得这些结果,却都需要对海量数据进行计算。由于这些数据都存在一定的实效性,因此对于运算速度,大数据对基础架构提出了永无止尽的要求:更快!

在EMC的《大数据:战略.技术.实践》一书中,提到过一个非常有意思的行业应用案例:奥巴马的数据科学团队通过收集选民、筹款人、媒体等资料,将它们统一成一个整体并进行分析。这不仅仅是一个数据的加减法,还细致到了类似于投票团队可能对哪些信息感兴趣,容易被哪些内容所说服,哪些人会进行捐赠,以及倾向何种捐赠方式。通过对大数据的分析,工作人员的效率得以显著提升,并得到了更精准的回报。

大数据之所以被众人追捧,恰恰是因为其蕴含直观的商业价值。在资本的力量面前,银行、金融、通信、房产这些传统企业更容易踏入大数据的行列,并且从大数据中获利。当某个新楼盘即将进入规划行列时,通过多种渠道的数据分析,决策层能够发现用户是否愿意在目标地区置业,能够接受的价位区间是多少,对周边的配套设施需求又有多少。以往深思熟虑才能得到的结果通过大数据将无序的信息织成一张网,帮助用户连接到了最终的答案。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
分布式计算 DataWorks MaxCompute
DataWorks中odps到容器部署starrocks的单表同步遇到写入问题
【1月更文挑战第6天】【1月更文挑战第29篇】DataWorks中odps到容器部署starrocks的单表同步遇到写入问题
46 3
|
4月前
|
SQL 分布式计算 数据可视化
滴滴出行大数据数仓实战
滴滴出行大数据数仓实战
116 0
滴滴出行大数据数仓实战
|
4月前
|
SQL 分布式计算 大数据
【大数据技术Spark】DStream编程操作讲解实战(图文解释 附源码)
【大数据技术Spark】DStream编程操作讲解实战(图文解释 附源码)
37 0
|
4月前
|
分布式计算 Java 大数据
【大数据技术Hadoop+Spark】HDFS Shell常用命令及HDFS Java API详解及实战(超详细 附源码)
【大数据技术Hadoop+Spark】HDFS Shell常用命令及HDFS Java API详解及实战(超详细 附源码)
189 0
|
4月前
|
安全 大数据 API
elasticsearch|大数据|elasticsearch的api部分实战操作以及用户和密码的管理
elasticsearch|大数据|elasticsearch的api部分实战操作以及用户和密码的管理
63 0
|
4月前
|
SQL 分布式计算 数据库
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
96 0
|
4月前
|
分布式计算 大数据 Scala
【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战(超详细 附源码)
【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战(超详细 附源码)
91 1
|
12天前
|
机器学习/深度学习 人工智能 安全
Azure Databricks实战:在云上轻松进行大数据分析与AI开发
【4月更文挑战第8天】Databricks在大数据分析和AI开发中表现出色,简化流程并提高效率。文中列举了三个应用场景:数据湖分析、实时流处理和AI机器学习,并阐述了Databricks的一体化平台、云原生弹性及企业级安全优势。博主认为,Databricks提升了研发效能,无缝集成Azure生态,并具有持续创新潜力,是应对大数据挑战和加速AI创新的理想工具。
36 0
|
2月前
|
分布式计算 大数据 Java
Spark 大数据实战:基于 RDD 的大数据处理分析
Spark 大数据实战:基于 RDD 的大数据处理分析
120 0
|
4月前
|
SQL 存储 大数据
手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark
手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark
91 0