本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.7节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.7 为什么选择R
R是一种高质量、跨平台、灵活且广泛使用的开源免费语言,可用于统计学、图形学、数学和数据科学。它由统计学家创建,并为统计学家服务。
R语言包含了5000多种算法以及全球范围内具备专业知识的数百万用户,并得到了充满活力且富有才华的社区贡献者的支持。它不仅可以使用完善的统计技术,也允许使用试验性的统计技术。
R是一个用于统计计算与图形学的免费开源软件,其环境由R-projects维护,根据自由软件基金会(Free Software Foundation)的GNU通用公共授权(General Public License)的条款,R语言的源代码是可以获得的。由于存在各种平台,如Unix、Linux、Windows以及Mac OS,所以R语言也编译和开发了用于不同平台的版本。
R的缺点有哪些
R存在以下3个缺点:
一个缺点就是内存约束,因此它需要将整个数据集存储在内存(RAM)中以便实现高性能,这也称为内存分析。
类似于其他开源系统,任何人都可以创建和贡献经过严格测试或者未经过严格测试的程序包。换言之,贡献给R社区的程序包是容易出错的,需要更多的测试以确保代码的质量。
R语言似乎比某些其他商业语言慢。
幸运的是,存在可用于解决这些问题的程序包。有些方法可以归为并行解决方案,本质就是将程序的运行分散到多个CPU上,从而克服上面所列R语言的缺陷。有不少好的例子,比如RHadoop,但并不局限于RHadoop。你很快就会在下面的章节中看到更多关于这个话题的内容。你可以从综合R典藏网(Comprehensive R Archive Network,CRAN)下载SNOW添加包和Parallel添加包。