《机器学习与数据科学(基于R的统计学习方法)》——1.1 机器学习的分类

简介:

本节书摘来异步社区《机器学习与数据科学(基于R的统计学习方法)》一书中的第1章,第1.1节,作者:【美】Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.1 机器学习的分类

本书会向读者介绍机器学习的基本原理。作为数据科学和大数据产业的主要推动力,机器学习在众多行业中广受关注,它可以为企业提供使公司数据资产增值的新方法。在本书中,我们会基于R语言统计环境学习机器学习算法的原理,包括两种基本类型:监督学习和非监督学习。

监督机器学习(Supervised machine learning)通常与预测有关,与每个观测值(也称为特征变量,feature variable)对应,都有一个结果值。监督学习的训练目标是根据响应模型准确预测未来的观测值对应的响应结果。很多传统的学习算法,诸如线性回归或逻辑回归,都属于监督学习的领域。

非监督机器学习(Unsupervised machine learning)是更开放性的一种类型。它不使用标记好的数据集,而是一套应用于程序上的统计工具,在大量的观测中只测量其中一组特征变量。在这种情况下,预测不再是学习的目标,因为数据集没有被标记,不存在可以监督分析行为的响应变量。事实上,非监督学习的目标是通过对特征变量的观测来挖掘一些有趣的事情。例如,你可以找到一个数据形象化的展现方式,或者发现数据集中隐藏的子群。

非监督学习技术的一个常用的场景是K-均值聚类,即在数据点集中找出“聚类”。另一种常用技术叫做主成分分析(PCA),用于降维,也就是说,在保持数据多样性的同时,减少特征变量,来简化学习算法中的数据复杂度,加快数据处理效率,并能降低所需的内存占用。

相关文章
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之线性回归与逻辑回归【完整房价预测和鸢尾花分类代码解释】
机器学习之线性回归与逻辑回归【完整房价预测和鸢尾花分类代码解释】
|
1月前
|
数据采集 机器学习/深度学习 存储
【机器学习】数据清洗——基于Numpy库的方法删除重复点
【机器学习】数据清洗——基于Numpy库的方法删除重复点
71 1
|
1月前
|
数据采集 机器学习/深度学习 Python
【机器学习】数据清洗——基于Pandas库的方法删除重复点
【机器学习】数据清洗——基于Pandas库的方法删除重复点
45 1
|
1月前
|
机器学习/深度学习 数据可视化 算法
机器学习中的分类问题:如何选择和理解性能衡量标准
机器学习中的分类问题:如何选择和理解性能衡量标准
机器学习中的分类问题:如何选择和理解性能衡量标准
|
1月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
26 1
|
8天前
|
机器学习/深度学习 自然语言处理 算法
|
2天前
|
机器学习/深度学习 存储 算法
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
25 7
|
1月前
|
机器学习/深度学习 算法
机器学习的魔法(二)超越预测的界限-揭秘机器学习的黑科技-探索监督学习中的回归和分类问题
机器学习的魔法(二)超越预测的界限-揭秘机器学习的黑科技-探索监督学习中的回归和分类问题
130 0
|
1月前
|
机器学习/深度学习 算法
机器学习与深度学习的算法分类
机器学习与深度学习的算法分类
|
1月前
|
机器学习/深度学习 数据采集 存储
使用机器学习算法进行文本分类的方法与实践
本文将介绍使用机器学习算法进行文本分类的方法与实践。通过分析文本特征、选择合适的机器学习算法和构建有效的训练模型,可以实现准确和高效的文本分类任务。我们还将探讨如何处理文本数据预处理、特征提取和模型评估等方面的关键问题,以帮助读者更好地应用机器学习技术解决文本分类挑战。

热门文章

最新文章