《数据科学与大数据分析——数据的发现 分析 可视化与表示》一1.4 大数据分析案例

简介:

本节书摘来自异步社区《数据科学与大数据分析——数据的发现 分析 可视化与表示》一书中的第1章,第1.4节,作者【美】EMC Education Services(EMC教育服务团队),更多章节内容可以访问云栖社区“异步社区”公众号查看

1.4 大数据分析案例

在介绍完大数据新兴生态系统和支持其发展需要的新角色后,本节将介绍大数据在不同领域中应用的3个例子:零售业、IT基础设施和社交媒体。

前面提到,大数据带来了很多改进销售和市场分析的机会。美国零售商Target便是这样的例子。作者Charles Duhigg在他的The Power of Habit一书[4]中介绍了Target如何使用大数据和高级分析方法来提高销售收入。在分析了消费者的购买行为后,Target公司的统计人员发现零售业很大的一块销售收入来源于下面的三大主要事件。

  • 结婚,这时人们会倾向于购买很多新东西。
  • 离婚,这时人们也会购买新产品,并且改变自己的消费习惯。
  • 怀孕,这时人们会购买许多新东西,并且都是非常迫切地购买。

分析人员还发现在上述三大事件中,怀孕是最让商家赚钱的事件。通过从购物者身上收集的购物数据,Target公司就可以预测哪些购物者可能已经怀孕。有一次,Target公司甚至比一位女顾客的家人更早地判断出这位女顾客已经怀孕[5]。根据这类分析结果,Target公司会对已经怀孕的顾客提供特定的优惠券和激励机制。事实上,Target公司的分析机制不但可以判断某个顾客是否已经怀孕,还可以知道顾客已经怀孕几个月了。这样Target公司就可以更好地管理和调整自己的库存,因为他们知道在每9~10个月的周期中,每个月大致会有哪些特定孕期商品的需求。

另一个大数据创新的例子来自于IT基础设备领域中的Hadoop[6]。Apache Hadoop是一款开源框架,允许公司以高度并行的方式处理大量的信息。Hadoop是由Doug Cutting和Mike Cafarella在2005年设计和实现的一种基于MapReduce计算范式的系统,被用于处理各种不同结构的数据。对于很多需要涉及大量或者难以操作的非传统结构数据的大数据项目来说,Hadoop是一种理想的技术框架。Hadoop的主要优点之一是采用分布式文件系统,这意味着它可以使用分布式集群服务器和商用硬件来处理大量数据。在社交媒体领域中Hadoop的应用案例很常见,在这里Hadoop可以管理事务、更新文字信息和生成数百万用户间的社交图谱。Twitter和Facebook每天都会产生海量的非结构化数据,并通过Hadoop和其生态系统中的工具来管理这些海量数据。第10章将进一步讲解相关内容。

最后,通过社交媒体上的人际互动可以获取许多新的见解,而其中蕴含着巨大的商机。LinkedIn是一家典型的数据即产品的公司。在公司创立初期,LinkedIn创始人Reid Hoffman就意识到可以为职场专业人士创建一个社交网络。截至2014年,LinkedIn拥有超过2.5亿的用户账户,并增加了很多额外的功能和数据相关的产品,例如,招聘、求职者工具、广告和社交图谱InMaps。InMaps可以显示用户的职业社交网络图谱。图1.14是一个InMaps可视化案例,使得LinkedIn用户可以对自己联系人之间的互联关系和脉络有一个更直观的认识。


80b444891f91c31f357f6d00b93f7fe7116fb0e2
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
24天前
|
SQL 分布式计算 数据可视化
Tableau与大数据:可视化工具在大数据分析中的应用
【4月更文挑战第8天】Tableau是一款领先的数据可视化工具,擅长于大数据分析,提供广泛的数据连接器,支持多源整合。它与Hadoop、Spark等深度集成,实现高效大数据处理。Tableau的拖拽式界面和交互式分析功能使得非技术人员也能轻松探索数据。在实战中,Tableau用于业务监控、数据storytelling和自助式分析,推动数据民主化,提升决策效率。未来,Tableau将持续创新,扩展生态系统,并保障数据安全与合规性,助力企业最大化数据价值。
33 0
|
1月前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
8天前
|
数据可视化 数据挖掘
R语言生存分析数据分析可视化案例(下)
R语言生存分析数据分析可视化案例
17 0
|
23天前
|
数据采集 机器学习/深度学习 数据可视化
数据科学项目实战:完整的Python数据分析流程案例解析
【4月更文挑战第12天】本文以Python为例,展示了数据分析的完整流程:从CSV文件加载数据,执行预处理(处理缺失值和异常值),进行数据探索(可视化和统计分析),选择并训练线性回归模型,评估模型性能,以及结果解释与可视化。每个步骤都包含相关代码示例,强调了数据科学项目中理论与实践的结合。
|
5天前
|
SQL 分布式计算 DataWorks
MaxCompute产品使用合集之DataWorks体验案例绑定如何绑定到正确的maxcomputer引擎上
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
3天前
|
存储 机器学习/深度学习 数据采集
大数据处理与分析实战:技术深度剖析与案例分享
【5月更文挑战第2天】本文探讨了大数据处理与分析的关键环节,包括数据采集、预处理、存储、分析和可视化,并介绍了Hadoop、Spark和机器学习等核心技术。通过电商推荐系统和智慧城市交通管理的实战案例,展示了大数据在提高用户体验和解决实际问题上的效能。随着技术进步,大数据处理与分析将在更多领域发挥作用,推动社会进步。
|
5天前
|
存储 运维 监控
|
6天前
|
存储 数据可视化 大数据
大数据分析与处理:探索数据的深层价值
大数据分析与处理:探索数据的深层价值
22 2
|
8天前
|
数据可视化 数据挖掘
R语言生存分析数据分析可视化案例(上)
R语言生存分析数据分析可视化案例
|
16天前
|
存储 分布式计算 大数据
使用 Java 进行大数据处理和分析
【4月更文挑战第19天】本文探讨了Java在大数据处理中的关键作用,涉及Hadoop框架、HDFS数据存储、MapReduce编程模型及Spark等数据分析工具。还包括数据预处理、可视化、性能优化、安全与隐私保护以及完整处理流程。Java在金融、医疗、电商等领域有广泛应用,为大数据洞察和决策提供支持,但同时也需要开发者具备深厚的技术背景和实践经验。