《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.1 数据采集的几条重要原则

简介: 本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第3章 ,第3.1节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.1 数据采集的几条重要原则 3.1.1 要足够“复杂” 先说一个跟客户接触的例子。

本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第3章 ,第3.1节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.1 数据采集的几条重要原则

3.1.1 要足够“复杂”
先说一个跟客户接触的例子。一个国企学员课间休息时来问我:“老师,我们领导经常批评我,说我们写的工作报告(数据报告)太简单了,你能看看我们写的报告吗?”我到他电脑前面看了一下,报告确实挺简单的,感觉就是几百个字吧,再看看数据,大概只有6列的样子,难怪领导不满意。
可见,在采集数据的时候,必须要注意数据的复杂性,如同1.1节所说,要综合考虑数据量、复杂度、颗粒度等因素。
都说通过实例说明体会更深,下面再来看另一个例子。数年前,我参与了一家建筑涂料公司发展规划的制作,该公司希望通过对各种信息数据进行分析,从而对未来5年中国的产品发展市场份额有一个整体规划和了解。
让我们看看他们收集了哪些数据,如图3-1所示。


image


可以看到,要收集的数据不少,但事实上,想要搞清楚企业在未来数年中可能出现的市场态势,即使这些数据都能够顺利找到,可能仍然是不够的。

3.1.2 要足够“细”

“细”实际上就是颗粒度的意思,稍微有点数据收集经验的人大概都知道,要收集年度的数据其实相对比较容易,如果粒度为季度,可能就会有点问题了,到月则很难了,至于每周的数据,那就更不要想了。
不过,也不是每个公司都如此,曾有证券公司做定量分析的人说过,证券数据分析虽然不好做,但是有一点好,起码不用为数据发愁,因为证券系统可以提供最细到1分钟的数据,自然,任何周期的数据和指标都可以自己计算得出。

3.1.3 要有“跨度”

这里讲的“跨度”涉及两个方面,一是数据的时间跨度;二是数据的属性跨度。
中国有句老话就是“路遥知马力,日久见人心”,在数据方面也是如此。数据的时间跨度有时候也称为“数据年龄”,对于同样的数据指标而言,若“数据年龄”分别为5年和1年,差距其实是挺大的。数据年龄越长,往往越能说明问题。
属性跨度稍微难理解一点,实际上就是尽量要找不同的数据,如图3-1,我们找了宏观经济的数据,例如GDP、经济发展增速;也找了全国人口变迁、流动的数据,还找了竞争对手市场占有率的数据等。总之,所找的数据越“杂”,数据跨度就越大,往往也就越能说明问题。

3.1.4 要有可行性

数据收集的一个重要思考维度就是可行性,做过数据采集的人都知道,有时候数据采集的难度之大,会让你觉得这个事情都做不下去了。
我供职过的企业曾经给中国移动的几个省分公司做过供应商,有一次A省分公司让我们了解移动客户的情况,并且给出了一个“客户画像”(这在当时是一个流行的术语,直到现在还有客户提及),那个时候不像现在,手机号码是实名制的,当时中国移动的各个省分公司的全球通手机号比例一般都在20%以下,大部分的手机用户都是神州行和动感地带的,我们根本不知道用户特征,甚至不知道客户的性别。这种情况下,要进行数据收集是很困难的。
还有一个是营销活动数据的收集案例,我们曾经为中国移动的某省分公司收集过营销活动的数据,目的是想知道移动做了营销活动之后,客户的反应情况。当时移动做业务营销的主要方式是短信群发,判断客户对营销活动有反应的终极标准是客户订制了该业务,当然也有一些客户是到移动营业厅或拨打移动客服号1860(当初的客服号,现在改成10086)咨询了该业务。可以想象,在当时的条件下收集这样的数据是何其困难。

相关文章
|
2月前
|
自然语言处理 小程序 数据挖掘
数据分析实战-Python实现博客评论数据的情感分析
数据分析实战-Python实现博客评论数据的情感分析
140 0
|
3天前
|
SQL 数据采集 存储
Hive实战 —— 电商数据分析(全流程详解 真实数据)
关于基于小型数据的Hive数仓构建实战,目的是通过分析某零售企业的门店数据来进行业务洞察。内容涵盖了数据清洗、数据分析和Hive表的创建。项目需求包括客户画像、消费统计、资源利用率、特征人群定位和数据可视化。数据源包括Customer、Transaction、Store和Review四张表,涉及多个维度的聚合和分析,如按性别、国家统计客户、按时间段计算总收入等。项目执行需先下载数据和配置Zeppelin环境,然后通过Hive进行数据清洗、建表和分析。在建表过程中,涉及ODS、DWD、DWT、DWS和DM五层,每层都有其特定的任务和粒度。最后,通过Hive SQL进行各种业务指标的计算和分析。
18 1
Hive实战 —— 电商数据分析(全流程详解 真实数据)
|
9天前
|
SQL 人工智能 自然语言处理
让老板成为数据分析师--ChatGpt链接本地数据源实战测试
本文探究ChatGpt等AI机器人能否帮助老板快速的做数据分析?用自然语言同老板进行沟通,满足老板的所有数据分析的诉求?
|
14天前
|
数据采集 数据可视化 数据挖掘
R语言与Python:比较两种数据分析工具
【4月更文挑战第25天】R语言和Python是目前最流行的两种数据分析工具。本文将对这两种工具进行比较,包括它们的历史、特点、应用场景、社区支持、学习资源、性能等方面,以帮助读者更好地了解和选择适合自己的数据分析工具。
|
20天前
|
机器学习/深度学习 数据挖掘 计算机视觉
python数据分析工具SciPy
【4月更文挑战第15天】SciPy是Python的开源库,用于数学、科学和工程计算,基于NumPy扩展了优化、线性代数、积分、插值、特殊函数、信号处理、图像处理和常微分方程求解等功能。它包含优化、线性代数、积分、信号和图像处理等多个模块。通过SciPy,可以方便地执行各种科学计算任务。例如,计算高斯分布的PDF,需要结合NumPy使用。要安装SciPy,可以使用`pip install scipy`命令。这个库极大地丰富了Python在科学计算领域的应用。
13 1
|
21天前
|
数据可视化 数据挖掘 Python
Python中数据分析工具Matplotlib
【4月更文挑战第14天】Matplotlib是Python的数据可视化库,能生成多种图表,如折线图、柱状图等。以下是一个绘制简单折线图的代码示例: ```python import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [2, 4, 6, 8, 10] plt.figure() plt.plot(x, y) plt.title('简单折线图') plt.xlabel('X轴') plt.ylabel('Y轴') plt.show() ```
13 1
|
21天前
|
数据采集 SQL 数据可视化
Python数据分析工具Pandas
【4月更文挑战第14天】Pandas是Python的数据分析库,提供Series和DataFrame数据结构,用于高效处理标记数据。它支持从多种数据源加载数据,包括CSV、Excel和SQL。功能包括数据清洗(处理缺失值、异常值)、数据操作(切片、过滤、分组)、时间序列分析及与Matplotlib等库集成进行数据可视化。其高性能底层基于NumPy,适合大型数据集处理。通过加载数据、清洗、分析和可视化,Pandas简化了数据分析流程。广泛的学习资源使其成为数据分析初学者的理想选择。
15 1
|
22天前
|
供应链 搜索推荐 数据挖掘
Pandas实战案例:电商数据分析的实践与挑战
【4月更文挑战第16天】本文通过一个电商数据分析案例展示了Pandas在处理销售数据、用户行为分析及商品销售趋势预测中的应用。在数据准备与清洗阶段,Pandas用于处理缺失值、重复值。接着,通过用户购买行为和商品销售趋势分析,构建用户画像并预测销售趋势。实践中遇到的大数据量和数据多样性挑战,通过分布式计算和数据标准化解决。未来将继续深入研究Pandas与其他先进技术的结合,提升决策支持能力。
|
22天前
|
存储 数据可视化 数据挖掘
实战案例:Pandas在金融数据分析中的应用
【4月更文挑战第16天】本文通过实例展示了Pandas在金融数据分析中的应用。案例中,一家投资机构使用Pandas加载、清洗股票历史价格数据,删除无关列并重命名,将日期设为索引。接着,数据被可视化以观察价格走势,进行基本统计分析了解价格分布,以及计算移动平均线来平滑波动。Pandas的便捷功能在金融数据分析中体现出高效率和实用性。
|
1月前
|
Unix API 网络架构
python操作excel示例(xlwings库)有实战例子(生成温度表)
python操作excel示例(xlwings库)有实战例子(生成温度表)
199 0