《数据分析实战:基于EXCEL和SPSS系列工具的实践》——2.2 选择称手的软件工具

简介:

本节书摘来自华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第2章,第2.2节,作者 纪贺元,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2 选择称手的软件工具

数据分析的工具有很多种(大约有十多种),每种都有其优势和长处,也有它的缺陷。根据作者的经验,还真没有一种工具软件能够包打天下。当然从逻辑上讲也应该是这样的,如果存在一个“万能”的软件,那么其他的软件肯定就要消亡了。

笔者基于自己的经验列出了常用统计分析软件的利弊对比,见表2-2。

image
image

2.2.1 EXCEL

无论如何,EXCEL都是最基础的数据分析工具,绝大多数人都在使用EXCEL,起码在使用EXCEL来收集录入数据。

从专业分析的角度来看,EXCEL的分析功能太弱了:数据透视表的功能还不错,但几乎没有像样的“统计”功能,图形的功能也很弱。此外,虽然配备了数组等比较高级的功能,能够勉强地实现编程中“循环”的功能,但是数据量比较大的时候,EXCEL会变得很慢甚至不能忍受。

事实上,EXCEL是否够用,完全取决你手里的数据、你的需求。如果你手里的数据一般、需求也不复杂,EXCEL差不多能满足你的需求;如果你的需求很大并且需求复杂,那么EXCEL可能会让你失望。

2.2.2 VBA

个人认为微软Office成功的一大原因,就是将高级语言VB整合到了Office中,形成了VBA。VBA几乎可以做所有数据分析类的事情,有人将聚类、关联分析、主成分分析这些统计分析算法都用VBA实现了,因此VBA几乎无所不能。

VBA还有一个很大的优点是:EXCEL中运用VBA控制Powerpoint和Word,这又可以大大地提高工作效率,在EXCEL中运用VBA处理完数据后,可以直接生成相应的PPT和Word文件。

2.2.3 Access

Access是微软提供的一个“半专业”的数据库,之所以称其为“半专业”数据库,是因为相对于MySQL、Oracle这些专业数据库而言,它的专业性确实还不够。

Access在操作灵活性等方面远不如EXCEL,按照笔者个人的理解,ACCESS优势主要体现在以下三个方面:

1)相对于EXCEL,它的数据存储量提高了,准确地讲,ACCESS数据库最大可以存储2GB左右的数据,至于具体能放多少条,那就要看数据的复杂度了。
2)数据一致性检查方面,效率特别高,例如A表中有BOM料号“ABC123”,我们要检查关联的B表中是否有该料号,在数据量比较大的情况下,使用ACCESS非常高效。
3)多条件查询的效率很高,EXCEL几乎不支持多条件查询,而ACCESS几乎是为图2-15所示的多条件查询而生的。

image

2.2.4 SPSS

SPSS是知名度最高的专业统计软件,据我所知,虽然现在做数据分析的人可使用多种分析工具,但SPSS通常是他们使用的第一款统计软件。

SPSS的优点和缺点都很明显,优点是界面美观、功能强大,缺点是界面做得很复杂,是一款比较复杂的软件,以至于一些使用SPSS多年的人都说“我就是在糊里糊涂地用”。

值得一提的是,IBM在收购SPSS之后,认为SPSS过于学术化,IBM想对SPSS进行改造以增加其“商业气息”,因此就搞出来一个“直销”模块(见图2-16),里面整合了几个比较有用的小工具,后面会有详细介绍。

image

2.2.5 XLSTAT

XLSTAT是一个小软件,或者说是一个小插件,它是在EXCEL环境中运行的,请见图2-17。

image

XLSTAT插件的好处不言而喻,由于跟EXCEL环境无缝整合,使用起来比较方便,能够实现大多数统计分析的功能,但是缺点也很明显,数据量一旦比较大,插件运行的效果就比较差。

因此,XLSTAT就是个小工具,不大能作为一个正规的统计分析软件来使用。

2.2.6 Modeler

Modeler的前身是美国著名的CLEMENTINE软件,现在也被IBM收购了,成为IBM软件的一员。Modeler是专业数据挖掘软件,它包含了关联分析等著名的数据挖掘算法,而这些算法是SPSS所不包含的。

Modeler的一个显著的优点是完全图示化,如图2-18所示Modeler的分析界面。

image

个人认为,专业统计挖掘软件能够做到几乎完全图示化的操作,确实相当不容易,Modeler也受到了广大非统计挖掘专业客户的欢迎。

2.2.7 R语言

R是近年来快速发展的一个统计语言,个人认为其最大的好处之一就是开源,在商务上它是基本免费的,这对于广大用户尤其是中小用户来说是一个福音。

对于R的学习需要有一定的统计基础,R有很多开发好的统计包,如果对这些统计包很熟悉的话,你会发现R实际上有一个共享的机制,就是别人可能老早就把你要做的统计分析功能做好了,你只要直接调用就可以了,这就是一个很大的福音。

另外,R的绘图功能非常强,绝对是专业级的绘图功能。

相关文章
|
2月前
|
自然语言处理 小程序 数据挖掘
数据分析实战-Python实现博客评论数据的情感分析
数据分析实战-Python实现博客评论数据的情感分析
144 0
|
2天前
|
数据采集 数据可视化 数据挖掘
Python 与 PySpark数据分析实战指南:解锁数据洞见
Python 与 PySpark数据分析实战指南:解锁数据洞见
|
4天前
|
SQL 数据采集 存储
Hive实战 —— 电商数据分析(全流程详解 真实数据)
关于基于小型数据的Hive数仓构建实战,目的是通过分析某零售企业的门店数据来进行业务洞察。内容涵盖了数据清洗、数据分析和Hive表的创建。项目需求包括客户画像、消费统计、资源利用率、特征人群定位和数据可视化。数据源包括Customer、Transaction、Store和Review四张表,涉及多个维度的聚合和分析,如按性别、国家统计客户、按时间段计算总收入等。项目执行需先下载数据和配置Zeppelin环境,然后通过Hive进行数据清洗、建表和分析。在建表过程中,涉及ODS、DWD、DWT、DWS和DM五层,每层都有其特定的任务和粒度。最后,通过Hive SQL进行各种业务指标的计算和分析。
20 1
Hive实战 —— 电商数据分析(全流程详解 真实数据)
|
11天前
|
SQL 人工智能 自然语言处理
让老板成为数据分析师--ChatGpt链接本地数据源实战测试
本文探究ChatGpt等AI机器人能否帮助老板快速的做数据分析?用自然语言同老板进行沟通,满足老板的所有数据分析的诉求?
|
12天前
|
数据采集 监控 网络协议
利用Perl编写局域网监控软件的数据分析与报告生成模块
使用Perl编写局域网监控软件,包括数据采集(如获取主机列表)、数据分析(统计主机在线时长)和报告生成。代码示例展示了如何利用Net::ARP模块收集信息、定时统计在线时间并生成报告。此外,通过LWP::UserAgent模块,可将监控数据自动提交至网站,便于管理员远程监控网络状态,保障网络安全。
29 0
|
15天前
|
数据采集 数据可视化 数据挖掘
R语言与Python:比较两种数据分析工具
【4月更文挑战第25天】R语言和Python是目前最流行的两种数据分析工具。本文将对这两种工具进行比较,包括它们的历史、特点、应用场景、社区支持、学习资源、性能等方面,以帮助读者更好地了解和选择适合自己的数据分析工具。
|
21天前
|
机器学习/深度学习 数据挖掘 计算机视觉
python数据分析工具SciPy
【4月更文挑战第15天】SciPy是Python的开源库,用于数学、科学和工程计算,基于NumPy扩展了优化、线性代数、积分、插值、特殊函数、信号处理、图像处理和常微分方程求解等功能。它包含优化、线性代数、积分、信号和图像处理等多个模块。通过SciPy,可以方便地执行各种科学计算任务。例如,计算高斯分布的PDF,需要结合NumPy使用。要安装SciPy,可以使用`pip install scipy`命令。这个库极大地丰富了Python在科学计算领域的应用。
13 1
|
22天前
|
数据可视化 数据挖掘 Python
Python中数据分析工具Matplotlib
【4月更文挑战第14天】Matplotlib是Python的数据可视化库,能生成多种图表,如折线图、柱状图等。以下是一个绘制简单折线图的代码示例: ```python import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [2, 4, 6, 8, 10] plt.figure() plt.plot(x, y) plt.title('简单折线图') plt.xlabel('X轴') plt.ylabel('Y轴') plt.show() ```
13 1
|
22天前
|
数据采集 SQL 数据可视化
Python数据分析工具Pandas
【4月更文挑战第14天】Pandas是Python的数据分析库,提供Series和DataFrame数据结构,用于高效处理标记数据。它支持从多种数据源加载数据,包括CSV、Excel和SQL。功能包括数据清洗(处理缺失值、异常值)、数据操作(切片、过滤、分组)、时间序列分析及与Matplotlib等库集成进行数据可视化。其高性能底层基于NumPy,适合大型数据集处理。通过加载数据、清洗、分析和可视化,Pandas简化了数据分析流程。广泛的学习资源使其成为数据分析初学者的理想选择。
15 1
|
23天前
|
数据采集 数据可视化 数据挖掘
Seaborn在数据分析中的应用:案例分析与实践
【4月更文挑战第17天】本文介绍了Seaborn在数据分析中的应用,它是一个基于Python的可视化库,简化了复杂数据的图表创建。通过一个销售数据分析的案例,展示了数据加载、描述性统计、相关性分析、多变量分析及高级可视化步骤。实践技巧包括数据清洗、图表选择、颜色使用、注释标签和交互性。Seaborn助力高效数据探索和理解,提升分析效率。注意,实际使用需根据数据集和目标调整,并参考最新文档。