《数据分析实战：基于EXCEL和SPSS系列工具的实践》——2.2　选择称手的软件工具-阿里云开发者社区

《数据分析实战：基于EXCEL和SPSS系列工具的实践》——2.2　选择称手的软件工具

2017-07-10 2314

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章计算机《数据分析实战：基于EXCEL和SPSS系列工具的实践》一书中的第2章，第2.2节，作者纪贺元，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2　选择称手的软件工具

数据分析的工具有很多种（大约有十多种），每种都有其优势和长处，也有它的缺陷。根据作者的经验，还真没有一种工具软件能够包打天下。当然从逻辑上讲也应该是这样的，如果存在一个“万能”的软件，那么其他的软件肯定就要消亡了。

笔者基于自己的经验列出了常用统计分析软件的利弊对比，见表2-2。

2.2.1　EXCEL

无论如何，EXCEL都是最基础的数据分析工具，绝大多数人都在使用EXCEL，起码在使用EXCEL来收集录入数据。

从专业分析的角度来看，EXCEL的分析功能太弱了：数据透视表的功能还不错，但几乎没有像样的“统计”功能，图形的功能也很弱。此外，虽然配备了数组等比较高级的功能，能够勉强地实现编程中“循环”的功能，但是数据量比较大的时候，EXCEL会变得很慢甚至不能忍受。

事实上，EXCEL是否够用，完全取决你手里的数据、你的需求。如果你手里的数据一般、需求也不复杂，EXCEL差不多能满足你的需求；如果你的需求很大并且需求复杂，那么EXCEL可能会让你失望。

2.2.2　VBA

个人认为微软Office成功的一大原因，就是将高级语言VB整合到了Office中，形成了VBA。VBA几乎可以做所有数据分析类的事情，有人将聚类、关联分析、主成分分析这些统计分析算法都用VBA实现了，因此VBA几乎无所不能。

VBA还有一个很大的优点是：EXCEL中运用VBA控制Powerpoint和Word，这又可以大大地提高工作效率，在EXCEL中运用VBA处理完数据后，可以直接生成相应的PPT和Word文件。

2.2.3　Access

Access是微软提供的一个“半专业”的数据库，之所以称其为“半专业”数据库，是因为相对于MySQL、Oracle这些专业数据库而言，它的专业性确实还不够。

Access在操作灵活性等方面远不如EXCEL，按照笔者个人的理解，ACCESS优势主要体现在以下三个方面：

1）相对于EXCEL，它的数据存储量提高了，准确地讲，ACCESS数据库最大可以存储2GB左右的数据，至于具体能放多少条，那就要看数据的复杂度了。
2）数据一致性检查方面，效率特别高，例如A表中有BOM料号“ABC123”，我们要检查关联的B表中是否有该料号，在数据量比较大的情况下，使用ACCESS非常高效。
3）多条件查询的效率很高，EXCEL几乎不支持多条件查询，而ACCESS几乎是为图2-15所示的多条件查询而生的。

2.2.4　SPSS

SPSS是知名度最高的专业统计软件，据我所知，虽然现在做数据分析的人可使用多种分析工具，但SPSS通常是他们使用的第一款统计软件。

SPSS的优点和缺点都很明显，优点是界面美观、功能强大，缺点是界面做得很复杂，是一款比较复杂的软件，以至于一些使用SPSS多年的人都说“我就是在糊里糊涂地用”。

值得一提的是，IBM在收购SPSS之后，认为SPSS过于学术化，IBM想对SPSS进行改造以增加其“商业气息”，因此就搞出来一个“直销”模块（见图2-16），里面整合了几个比较有用的小工具，后面会有详细介绍。

2.2.5　XLSTAT

XLSTAT是一个小软件，或者说是一个小插件，它是在EXCEL环境中运行的，请见图2-17。

XLSTAT插件的好处不言而喻，由于跟EXCEL环境无缝整合，使用起来比较方便，能够实现大多数统计分析的功能，但是缺点也很明显，数据量一旦比较大，插件运行的效果就比较差。

因此，XLSTAT就是个小工具，不大能作为一个正规的统计分析软件来使用。

2.2.6　Modeler

Modeler的前身是美国著名的CLEMENTINE软件，现在也被IBM收购了，成为IBM软件的一员。Modeler是专业数据挖掘软件，它包含了关联分析等著名的数据挖掘算法，而这些算法是SPSS所不包含的。

Modeler的一个显著的优点是完全图示化，如图2-18所示Modeler的分析界面。

个人认为，专业统计挖掘软件能够做到几乎完全图示化的操作，确实相当不容易，Modeler也受到了广大非统计挖掘专业客户的欢迎。

2.2.7　R语言

R是近年来快速发展的一个统计语言，个人认为其最大的好处之一就是开源，在商务上它是基本免费的，这对于广大用户尤其是中小用户来说是一个福音。

对于R的学习需要有一定的统计基础，R有很多开发好的统计包，如果对这些统计包很熟悉的话，你会发现R实际上有一个共享的机制，就是别人可能老早就把你要做的统计分析功能做好了，你只要直接调用就可以了，这就是一个很大的福音。

另外，R的绘图功能非常强，绝对是专业级的绘图功能。

《数据分析实战：基于EXCEL和SPSS系列工具的实践》——2.2　选择称手的软件工具

2.2　选择称手的软件工具

2.2.1　EXCEL

2.2.2　VBA

2.2.3　Access

2.2.4　SPSS

2.2.5　XLSTAT

2.2.6　Modeler

2.2.7　R语言

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《数据分析实战：基于EXCEL和SPSS系列工具的实践》——2.2 选择称手的软件工具

2.2 选择称手的软件工具

2.2.1 EXCEL

2.2.2 VBA

2.2.3 Access

2.2.4 SPSS

2.2.5 XLSTAT

2.2.6 Modeler

2.2.7 R语言

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《数据分析实战：基于EXCEL和SPSS系列工具的实践》——2.2　选择称手的软件工具

2.2　选择称手的软件工具

2.2.1　EXCEL

2.2.2　VBA

2.2.3　Access

2.2.4　SPSS

2.2.5　XLSTAT

2.2.6　Modeler

2.2.7　R语言