Apache Spark机器学习.1.3 机器学习算法

简介:

1.3 机器学习算法


本节将回顾机器学习所需的算法,介绍机器学习库,包括Spark的MLlib和IBM的SystemML,然后讨论它们与Spark的集成。

阅读本节之后,读者将会熟悉包括Spark MLlib在内的各种机器学习库,知道如何利用它们进行机器学习。

为完成机器学习项目,数据科学家经常使用机器学习工具(如R语言或MATLAB)上的一些成熟分类或回归算法开发和评估预测模型。要完成一个机器学习项目,除了数据集和计算平台,这些机器学习算法库也是十分必要的。

例如,R语言提供了专业人员使用的各类算法,所以得到了广泛流行和深入使用。R语言有1000多个程序包,数据科学家可能不需要全部的程序包,但需要几个关键的程序包:

数据加载:使用RODBC或RMySQL

数据操作:使用stringr或lubridate

数据可视化:使用ggplot2或leaflet

数据建模:使用Random Forest或survival

报告结果:使用shiny或markdown

根据近期ComputerWorld的调查,下载最多的R语言程序包如下:

程序包名称 下载次数

程序包名称 下载次数

Rcpp 162778

ggplot2 146008

plyr 123889

stringr 120387

colorspace 118798

digest 113899

reshape2 109869

RColorBrewer 100623

scales 92448

manipulate 88664

 

更多的信息,请访问:http://www.computerworld.com/article/2920117/business- intelligence/most-downloaded-r-packages-last-month.html。

相关文章
|
30天前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
|
12天前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
5天前
|
机器学习/深度学习 自然语言处理 算法
|
21天前
|
机器学习/深度学习 分布式计算 算法
大模型开发:你如何确定使用哪种机器学习算法?
在大型机器学习模型开发中,选择算法是关键。首先,明确问题类型(如回归、分类、聚类等)。其次,考虑数据规模、特征数量和类型、分布和结构,以判断适合的算法。再者,评估性能要求(准确性、速度、可解释性)和资源限制(计算资源、内存)。同时,利用领域知识和正则化来选择模型。最后,通过实验验证和模型比较进行优化。此过程涉及迭代和业务需求的技术权衡。
|
25天前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型:从数据处理到算法优化
【2月更文挑战第30天】 在数据驱动的时代,构建一个高效的机器学习模型是实现智能决策和预测的关键。本文将深入探讨如何通过有效的数据处理策略、合理的特征工程、选择适宜的学习算法以及进行细致的参数调优来提升模型性能。我们将剖析标准化与归一化的差异,探索主成分分析(PCA)的降维魔力,讨论支持向量机(SVM)和随机森林等算法的适用场景,并最终通过网格搜索(GridSearchCV)来实现参数的最优化。本文旨在为读者提供一条清晰的路径,以应对机器学习项目中的挑战,从而在实际应用中取得更精准的预测结果和更强的泛化能力。
|
28天前
|
机器学习/深度学习 自然语言处理 算法
【机器学习】包裹式特征选择之拉斯维加斯包装器(LVW)算法
【机器学习】包裹式特征选择之拉斯维加斯包装器(LVW)算法
44 0
|
28天前
|
机器学习/深度学习 存储 算法
【机器学习】包裹式特征选择之基于遗传算法的特征选择
【机器学习】包裹式特征选择之基于遗传算法的特征选择
44 0
|
2月前
|
消息中间件 Kafka Apache
Apache Flink 是一个开源的分布式流处理框架
Apache Flink 是一个开源的分布式流处理框架
476 5
|
26天前
|
消息中间件 API Apache
官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会
本文整理自阿里云开源大数据平台徐榜江 (雪尽),关于阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会。
1200 1
官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会
|
28天前
|
SQL Java API
官宣|Apache Flink 1.19 发布公告
Apache Flink PMC(项目管理委员)很高兴地宣布发布 Apache Flink 1.19.0。
1057 1
官宣|Apache Flink 1.19 发布公告

推荐镜像

更多