与数据挖掘有关或有帮助的R包和函数的集合

简介: 与数据挖掘有关或者有帮助的R包和函数的集合。1、聚类常用的包:fpc,cluster,pvclust,mclust基于划分的方法:kmeans,pam,pamk,clara基于层次的方法:hclust,pvclust,...

与数据挖掘有关或者有帮助的R包和函数的集合。


1、聚类

常用的包:fpcclusterpvclustmclust

基于划分的方法:kmeans,pam,pamk,clara

基于层次的方法:hclust,pvclust,agnes,diana

基于模型的方法:mclust

基于密度的方法:dbscan

基于画图的方法:plotcluster,plot.hclust

基于验证的方法:cluster.stats


2、分类

常用的包:

rpartpartyrandomForestrpartOrdinaltreemarginTree

maptreesurvival

决策树:rpart,ctree

随机森林:cforest,randomForest

回归,Logistic回归,Poisson回归:glm,predict,residuals

生存分析:survfit,survdiff,coxph


3、关联规则与频繁项集

常用的包:

arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则

DRM:回归和分类数据的重复关联模型

APRIORI算法,广度RST算法:apriori,drm

ECLAT算法:采用等价类,RST深度搜索和集合的交集:eclat


4、序列模式

常用的包:arulesSequences

SPADE算法:cSPADE


5、时间序列

常用的包:timsac

时间序列构建函数:ts

成分分解:decomp,decompose,stl,tsr


6、统计

常用的包:BaseR,nlme

方差分析:aov,anova

密度分析:density

假设检验:t.test,prop.test,anova,aov

线性混合模型:lme

主成分分析和因子分析:princomp


7、图表

条形图:barplot

饼图:pie

散点图:dotchart

直方图:hist

密度图:densityplot

蜡烛图,箱形图boxplot

QQ(quantile-quantile):qqnorm,qqplot,qqline

Bi-variateplot:coplot

:rpart

Parallelcoordinates:parallel,paracoor,parcoord

热图,contour:contour,filled.contour

其他图:stripplot,sunflowerplot,interaction.plot,matplot,fourfoldplot,

assocplot,mosaicplot

保存的图表格式:pdf,postscript,win.metafile,jpeg,bmp,png


8、数据操作

缺失值:na.omit

变量标准化:scale

变量转置:t

抽样:sample

堆栈:stack,unstack

其他:aggregate,merge,reshape


9、与数据挖掘软件Weka做接口

RWeka:通过这个接口,可以在R中使用Weka的所有算法。

目录
相关文章
|
机器学习/深度学习 资源调度 数据挖掘
【数据挖掘】高斯混合模型 ( 高斯混合模型参数 | 高斯混合模型评分函数 | 似然函数 | 生成模型法 | 对数似然函数 | 高斯混合模型方法步骤 )
【数据挖掘】高斯混合模型 ( 高斯混合模型参数 | 高斯混合模型评分函数 | 似然函数 | 生成模型法 | 对数似然函数 | 高斯混合模型方法步骤 )
212 0
|
资源调度 算法 数据挖掘
【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )
【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )
206 0
|
机器学习/深度学习 存储 运维
【数据挖掘】数据挖掘算法 组件化思想 ( 模型或模式结构 | 数据挖掘任务 | 评分函数 | 搜索和优化算法 | 数据管理策略 )
【数据挖掘】数据挖掘算法 组件化思想 ( 模型或模式结构 | 数据挖掘任务 | 评分函数 | 搜索和优化算法 | 数据管理策略 )
464 0
|
人工智能 运维 Cloud Native
【精品问答】110+数据挖掘面试题集合 | 技术日报(17期)
阿里云开发者社区超大技术福利!80+阿里系电子书开放下载,覆盖 Java、物联网、云原生、前端、大数据、开源、AI 等技术领域,深度分享阿里工程师实践精华,顶级技术内容一手掌握。快快收藏吧~
928 0
|
存储 数据可视化 数据挖掘
【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识
前面几篇文章采用的案例的方法进行介绍的,这篇文章主要介绍Python常用的扩展包,同时结合数据挖掘相关知识介绍该包具体的用法,主要介绍Numpy、Pandas和Matplotlib三个包。目录: 一.Python常用扩展包 二.Numpy科学计算包
7084 0