SAS数据挖掘浅谈

简介:

随着大数据的兴起,数据挖掘这一行也越来越火了。同时,各类大数据分析挖掘工具也越来越多,从最早的C、Java、excel、spss、SAS到现在Python、R、Hadoop,跨越了各行各业,从零售到互联网,从金融到医疗,都有了很大的发展。从我个人工作一年的经历来看,光数据挖掘工具,就用到了SAS、Python、R、Hadoop。从我个人看来,Python用于数据清洗确实比较方便,但是对于数据量稍微大一点,Python的运行效率还是不如SAS,R更适合跑算法模型,但是一旦数据到G级别的话,对于本机电脑如果只有4G的内存来说,还是有点鸡肋,相对SAS来说,R对于硬件要求相对来说要更高,Hadoop我用到的就只有其Hive数据库了,从存储量级来看,确实很不错,但是也存在性能不稳定以及数据的传输查询效率要远远低于传统的数据库oracle、TD等缺点。

从我个人喜好来看,虽然SAS还是比较古老的数据分析统计工具,但是我个人认为数据挖掘这一工具并不会被淘汰,主要有这么几点:

1.数据清洗的高效性:SAS数据处理通过结合data步和proc步来进行,效率非常高。一个简单的data步,可以实现各种各样的数据清洗,包括数据类型转化、数据观测的更改、删除、填补、简单的数据统计等等。而且承受的数据量级即使是千万级以上也不在话下。

2.模型算法的多样性:SAS里同样包含多种算法,从常见的聚类、逻辑回归、线性回归、非线性回归、到决策树、神经网络等,即使是本身不包含的协同过滤、最短路径、最小生成树等算法,我们也能够通过SAS编程实现。

3.SAS宏功能:SAS里面的宏特别常见,应用也特别广泛,从数据清洗的批量计算,到建模的参数输入,其实这一类宏也类似于R的所谓算法包,只是在SAS里面,以宏的形式存在着,我们同样可以通过以%macroname(宏参)的形式调用这些宏参数,避免重复繁琐的计算。同时,我们可以随时因为需求的改变,更改宏的定制,非常方便。

4.SAS IML矩阵模块:这一模型在Python中的numpy和R中matrix是类似的,通过对应的PROC IML过程,能够实现Python和R中对应的功能,而且计算方式也非常灵活,快捷。




目录
相关文章
|
数据挖掘
SAS进阶《深入解析SAS》之SAS数据挖掘的一般流程
SAS进阶《深入解析SAS》之SAS数据挖掘的一般流程 1. 所谓数据挖掘,是指通过对大量的数据进行选择、探索与建模,来揭示包含在数据中以前不为人所知的模式或规律,从而为商业活动或科学研究提供帮助和服务。 2. 数据挖掘重要的两个类别:有监督分析(SupervisedAnalysis),无监督分析(UnsupervisedAnalysis)。 有监督分析属于目标
1273 0
|
Web App开发 数据挖掘
SAS学习笔记之《SAS编程与数据挖掘商业案例》(4)DATA步循环与控制、常用全程语句、输出控制
SAS学习笔记之《SAS编程与数据挖掘商业案例》(4)DATA步循环与控制、常用全程语句、输出控制 1. 各种循环与控制 DO组 创建一个执行语句块 DO循环 根据下标变量重复执行DO和END之间的语句 DO WHILE 重复执行直到条件为假则退出循环 DO UNTIL 重复执行直到条件为真则退出循环 DO OVER 对隐含下标
1483 0
|
SQL 数据挖掘 Serverless
SAS学习笔记之《SAS编程与数据挖掘商业案例》(5)SAS宏语言、SQL过程
SAS学习笔记之《SAS编程与数据挖掘商业案例》(5)SAS宏语言、SQL过程 1. 一个SAS程序可能包含一个或几个语言成分: DATA步或PROC步 全程语句 SAS组件语言(SCL) 结构化查询语言(SQL) SAS宏语言 2. 宏触发:% 是一个宏语句或宏函数;&是一个宏变量引用 3. 局部宏变量:一般程序定义的为宏变量。 全局
1928 0
|
数据挖掘 索引 SQL
SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作
SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作 1. SET/SET效率高,建立的主表和建表索引的查询表一般不排序, 2. BY语句,DATA步中,BY语句规定分组变量,用于控制SET,MERGE,UPDATE或MODIFY语句。 BY<DESCENDING>variable-1 <...<DESCENDI
1625 0
|
数据挖掘
SAS学习笔记之《SAS编程与数据挖掘商业案例》(3)变量操作、观测值操作、SAS数据集管理
SAS学习笔记之《SAS编程与数据挖掘商业案例》(3)变量操作、观测值操作、SAS数据集管理 1. SAS变量操作的常用语句 ASSIGNMENT 创建或修改变量 SUM 累加变量或表达式 KEEP 规定在数据集中保留的变量 DROP 规定在数据集中删除的变量 ARRAY 定义一个数组 RENAME
1657 0
|
SQL 数据挖掘 关系型数据库
SAS学习笔记之《SAS编程与数据挖掘商业案例》(1)系统简介和编程基础
SAS学习笔记之《SAS编程与数据挖掘商业案例》(1)系统简介和编程基础 1. SAS系统简介 1.1 SAS是先编译后执行的语言,data步标志着编译的开始。 数据指针:当前内存缓存区,输入数据所在位置。 PDV:Program Data Vector,在DATA步中所有涉及的变量被编程当前向量的一部分。 2. SAS编程基础 2.1 SAS逻
1738 0