机器学习中的常用操作

2018-11-16 1037

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 机器学习中的常用操作输入节点到隐藏节点，特征数量n可能会变化，这个取决于我们定义的隐藏层的节点个数，但是样本数量m是不变的，从隐藏层出来还是m在预测的时候，我们需要不断的迭代输入的特征提高精度增加样本数量 -> 解决high variance减少特征 -> 解决high varian...

机器学习中的常用操作

输入节点到隐藏节点，特征数量n可能会变化，这个取决于我们定义的隐藏层的节点个数，但是样本数量m是不变的，从隐藏层出来还是m
在预测的时候，我们需要不断的迭代输入的特征

提高精度

增加样本数量 -> 解决high variance
减少特征 -> 解决high variance
增加特征 -> 解决high bias
- 根据现有的特征生成多项式(从\(x_1\), \(x_2\)扩展到\(x_1 + x_2 + x_1^{2} + x_2^{2} + x_1{x_2}\))
- 寻找新的特征
增加正则化参数\(\lambda\) -> 解决high variance
减小正则化参数\(\lambda\) -> 解决high bias

对数据的划分

将原来的训练样本按照6:2:2的比例划分成Train, Cross Validation, Test三个集合
如果不考虑Cross Validation的话, 则将训练样本划分成7:3的比例 -> Train(7), Test(3)
关于Cross Validation
- 如果我们对同一个机器学习问题, 假设了多个不同的模型(表现形式不同, 如\(kx+b\)和\(x^2+b\), 而不是\(k_1x+b_1\)和\(kx+b\), 因为k和b是我们的参数, 是我们要求的, 他们不应该考虑进去), 我们需要选择最好的模型(需要引进额外的参数d, 表示那个模型), 这个时候就要通过Cross Validation中的数据计算每一个模型测试的\(J_{cv}(\theta)\)来判断, \(J_{cv}(\theta)\)在后面会提到

误差

一旦对数据集合进行了划分，那么我们的损失值就从原来的\(J(\theta)\)变成了\(J_{train}(\theta)\), \(J_{cv}(\theta)\), \(J_{test}(\theta)\), 其中\(J_{train}(\theta)\)的功能就是在没有进行数据集合划分的\(J(\theta)\)的功能, 而\(J_{test}(\theta)\)是在我们已经拟合了假设函数, 使用Test集合中的数据进行测试所产生的损失, \(J_{cv}(\theta)\)在上面已经提到过了, 其实在CV数据集中的进行的就是对模型的测试而已, 和我们要在Test数据集中是一样的, 只是目的不同, 在CV数据集中, 我们目的是找出最好的模型, 因为这个时候模型太多了, 而在Test数据集中的时候, 在之前我们已经通过交叉验证获取了最好的模型, 现在是来测试一下, 这个模型对Test中的数据拟合的情况
\(J_{train}(\theta)\), \(J_{cv}(\theta)\), \(J_{test}(\theta)\)的公式和原始的\(J(\theta)\)一样, 为\(J_{train}(\theta)={{{1}\over{2m}}\sum_{i=1}^{m}(h(x^{(i)})-y^{(i)})^{2}}\), 注意, m表示训练样本的数量, x和y也都是在训练样本中的, 以此类推到\(J_{cv}(\theta)\), \(J_{test}(\theta)\)

高偏差(high bias)和高方差(high variance)

高偏差: 欠拟合
- 增加样本数量是徒劳
高方差: 过拟合
- 增加样本数量会提高精度
常见的\(J_{train}\)和\(J_{cv}\)关系
- 随着样本逐渐增加
  - \(J_{train}\uparrow\), 因为在样本很少的时候是很好拟合的, 随着样本的增加想要拟合所有的点就非常的困难
  - \(J_{cv}{\downarrow}\), 但是交叉验证的结果越来越小, 我们主要看的就是这个
- 随着正则化参数\(\lambda\)逐渐增加
  - \(J_{train}\uparrow\), \(\lambda\)越大, 则表示我们对\(\theta\)的惩罚力度在不断的增大, 模型会朝着过拟合的反方向发展, 我们知道过拟合的\(j_{train}\)很小, 所以现在这个情况下\(J_{train}\)应该增大
  - \(J_{cv}{\downarrow}{\uparrow}\), \(J_{cv}\)先下降后上升, \(\lambda\)太小或者太大都不好
- 随着阶数逐渐增加
  - \(J_{train}\downarrow\)
  - \(J_{cv}{\downarrow}{\uparrow}\)
- 从上面我们发现, \(J_{cv}\)要么是下降的, 要么是先下降再上升的

机器学习中的常用操作

机器学习中的常用操作

提高精度

对数据的划分

误差

高偏差(high bias)和高方差(high variance)

热门文章

最新文章

相关课程

相关电子书

相关实验场景