《R语言数据挖掘》----1.9 机器学习

简介:

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.9节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.9 机器学习

应用于机器学习算法的数据集称为训练集,它由一组成对的数据(x, y)构成,称为训练样本。成对的数据解释如下:
x:这是一个值向量,通常称为特征向量。每个值或者特征,要么是分类变量(这些值来自一组离散值,比如{S, M, L}),要么是数值型。

y:这是一个标签,表示x的分类或者回归值。

机器学习过程的目的就是发现一个函数y=f(x),它能最好地预测与每一个x值相关联的y值。原则上y的类型是任意的,但有一些常见的和重要的类型:
y:这是一个实数,机器学习问题称为回归。

y:这是一个布尔值,真或者假,通常分别写为+1和-1。在这种情况下,机器学习问题称为二元分类。

y:这是某些有限集合的成员。这个集合的成员可以认为是类,并且每个成员代表一类。此机器学习问题称为多级分类。

y:这是某些潜在无限集合的成员,例如,x的一个解析树,它被解析为一个句子。

到现在为止,在我们可以更直接地描述挖掘目标的情况下,还没有证明机器学习是成功的。机器学习和数据挖掘是两个不同的主题,尽管它们共享一些算法——特别是目标为提取信息时。在某些情况下,机器学习是有意义的,一个典型的情形就是当我们试图从数据集中寻找某些信息。

1.9.1 机器学习方法

算法的主要类型均列于下方,每个算法由函数f区分。

决策树(decision tree):这种形式的f呈树形,树的每个节点都有一个关于x的函数,用来确定必须搜索哪个子节点或者哪些子节点。

感知器(perceptron):这些是应用于向量x={x1, x2, …, xn}的分量的阈值函数。对每个i=1, 2, …, n,权重wi与第i个分量相关联,且有一个阈值wixi≥θ。如果阈值满足条件,输出为+1,否则为-1。

神经网络(neural net):这些是有感知器的非循环网络,某些感知器的输出用作其他感知器的输入。

基于实例的学习(instance-based learning):此方法使用整个训练集来表
示函数f。

支持向量机(support-vector machine):该类的结果是一个分类器,它对未知数据更准确。分类的目标是寻找最优超平面,通过最大化两个类的最近点之间的间隔将它们分隔。

1.9.2 机器学习架构

这里,机器学习的数据方面指的是处理数据的方式以及使用数据构建模型的方式。

训练和测试(training and testing):假定所有数据都适用于训练,分离出一小部分可用的数据作为测试集,使用余下的数据建立一个合适的模型或者分类器。

批处理与在线学习(batch versus online learning):对于批处理方式,在其进程的开始,整个训练集都是可得到的;对于在线学习,其训练集以数据流的形式获得,且对它进行处理后不能被再次访问。

特征选择(feature selection):这有助于找出那些用作学习算法输入的特征。

创建训练集(creating a training set):通过手动创建标签信息,从而把数据变为训练集。

相关文章
|
5月前
|
机器学习/深度学习 人工智能 算法
04 机器学习 - 数据挖掘与机器学习导论
04 机器学习 - 数据挖掘与机器学习导论
96 0
|
4月前
|
机器学习/深度学习 自然语言处理 算法
百度2024校招机器学习、数据挖掘、自然语言处理方向面试经历
百度2024校招机器学习、数据挖掘、自然语言处理方向面试经历
143 1
|
4月前
|
机器学习/深度学习 资源调度 数据挖掘
数据挖掘与机器学习中Matplotlib绘图模块详细讲解(超详细 附源码)
数据挖掘与机器学习中Matplotlib绘图模块详细讲解(超详细 附源码)
56 0
|
5月前
|
机器学习/深度学习 数据采集 算法
r语言机器学习逻辑回归代码实战 结果分析和折线图
r语言机器学习逻辑回归代码实战 结果分析和折线图
51 1
|
6月前
|
机器学习/深度学习 并行计算 Go
探索Go语言在机器学习领域的应用局限与前景
探索Go语言在机器学习领域的应用局限与前景
77 1
|
6月前
|
机器学习/深度学习 数据采集 算法
【数据挖掘和机器学习技术】数据挖掘和机器学习相关的算法和模型,如聚类、分类、回归、神经网络
【数据挖掘和机器学习技术】数据挖掘和机器学习相关的算法和模型,如聚类、分类、回归、神经网络
102 0
|
8月前
|
机器学习/深度学习 数据采集 算法
高分SCI必备:使用R语言和机器学习算法解析心脏病中的变量重要性
心脏病是全球范围内主要的致死因素之一[1],给人们的生活和健康带来了巨大的挑战。为了预测和诊断心脏病,研究人员使用了各种机器学习算法,并通过分析变量重要性来理解特征对心脏病的影响。
376 0
|
9月前
|
机器学习/深度学习 存储 分布式计算
Hadoop生态系统中的机器学习与数据挖掘技术:Apache Mahout和Apache Spark MLlib的应用
Hadoop生态系统中的机器学习与数据挖掘技术:Apache Mahout和Apache Spark MLlib的应用
|
11月前
|
机器学习/深度学习 人工智能 算法
「数据分析」精选数据挖掘和机器学习软件列表
「数据分析」精选数据挖掘和机器学习软件列表
|
1月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。

热门文章

最新文章