梯度下降法——得到的结果可能是局部最优值，如果凸函数则可保证梯度下降得到的是全局最优值-阿里云开发者社区

梯度下降法——得到的结果可能是局部最优值，如果凸函数则可保证梯度下降得到的是全局最优值

2017-11-15 2174

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

摘自：http://www.wengweitao.com/ti-du-xia-jiang-fa.html

梯度下降法（Gradient Descent）是一种常见的最优化算法，用于求解函数的最大值或者最小值。

梯度下降

在高数中，我们求解一个函数的最小值时，最常用的方法就是求出它的导数为0的那个点，进而判断这个点是否能够取最小值。但是，在实际很多情况，我们很难求解出使函数的导数为0的方程，这个时候就可以使用梯度下降。

举一个具体的例子，假如你在一座山的山顶准备下山，往哪一个方向走下山最快呢？下山最快的方向是最陡的那个方向，每一步你都应该朝最陡的那个方向走，直到到达山底，学习速率就表示你每一步迈的步伐有多大。

梯度下降法，基于这样的观察：如果实值函数F(x)在点a 处可微且有定义，那么函数 F(x)在a点沿着梯度相反的方向

见下图，如果顺利的话序列最终可以收敛到期望的极值。

注意：梯度下降得到的结果可能是局部最优值。如果F(x)

当然，可能梯度下降的最终点并非是全局最小点，可能是一个局部最小点，可能是下面的情况：

可以进一步参考实例：https://ctmakro.github.io/site/on_learning/gd.html

本文转自张昺华-sky博客园博客，原文链接：http://www.cnblogs.com/bonelee/p/7007702.html，如需转载请自行联系原作者