发布网友 发布时间:2022-04-25 16:21
共2个回答
热心网友 时间:2022-05-04 19:54
其实这个还是要好好的看看论文,然后让导师再给你好好的讲解一下吧,我这里只能说我自己的理解。
首先要知道什么是随机并行梯度下降算法。其实等于没有模型的优化的算法,就是更加的适用于那种控制变量比较多的,但是系统比较复杂的,又没有办法准确的去建立数学模型的优化控制的过程。
其实我个人觉得是期望收敛而已吧,因为我们在进行梯度估计的时候,基本上是提高梯度的估计精确度,然后实施以下正向扰动和负向扰动的,基本上两次扰动后,所有的函数值都会指示出梯度的估计。
其实我们知道在遇到一些比较复杂的都会选择建模,那么在模型训练的时候。基本上我们是把代价函数作为非凸的,那么获得的都是局部最优。这样就不确定是不是可以收敛到全局最优的效果了。
在局部最优的时候,参数的表现是基本稳定下来,不再发生任何变化。既然使用的数据少(随机梯度下降法就用的数据少)可能无法找到局部最优值,因为在很大概率上,它确实是能够靠近的,又不用那么大的计算量,所以就被广泛使用了。
所以说我觉得其实都是期望收敛而已。
其实我觉得我说这么多,不一定说明白啥,基本上我个人是觉得对于这种随机梯度下降的方法是期望收敛而已,真的是没有办法确定是否收敛的。
毕竟我没有论文专业,更没有导师专业,我只是用我自己的知识能力去回答的问题,所以说我由衷的建议你去看论文,看不懂就去问导师了,那才是正道啊,像我们这种人,毕竟没有那么专业,我害怕让你误入歧途。
热心网友 时间:2022-05-04 21:12
梯度下降法是一个一阶最优化算法,通常也称为最速下降法。要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。
梯度下降法的优化思想
是用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是最速下降法,最速下降法越接近目标值,步长越小(cost函数是凸函数,比如x^2梯度就是越来越小),前进越慢。
梯度下降法的缺点
靠近极小值时速度减慢。
直线搜索可能会产生一些问题。
可能会“之字型”地下降。
梯度下降收敛速度慢的原因:
梯度下降中,x =φ(x) = x - f'(x),φ'(x) = 1 - f''(x) != 0极值领域一般应该不会满足为0。则根据高阶收敛定理2.6可以梯度下降在根*x附近一般一阶收敛。
梯度下降方法中,负梯度方向从局来看是二次函数的最快下降方向,但是从整体来看却并非最好。
梯度下降最优解
梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。
Mini-batch gradient它还是采用了batch的思路,也就是所有样本一起更新。和batch不同的是mini,在求解方向的时候选择了一部分样本一起更新,这样就减少了计算量,同时它又不像SGD那样极端只使用一个样本,所以保证了方向的精确性。热心网友 时间:2022-05-04 19:54
其实这个还是要好好的看看论文,然后让导师再给你好好的讲解一下吧,我这里只能说我自己的理解。
首先要知道什么是随机并行梯度下降算法。其实等于没有模型的优化的算法,就是更加的适用于那种控制变量比较多的,但是系统比较复杂的,又没有办法准确的去建立数学模型的优化控制的过程。
其实我个人觉得是期望收敛而已吧,因为我们在进行梯度估计的时候,基本上是提高梯度的估计精确度,然后实施以下正向扰动和负向扰动的,基本上两次扰动后,所有的函数值都会指示出梯度的估计。
其实我们知道在遇到一些比较复杂的都会选择建模,那么在模型训练的时候。基本上我们是把代价函数作为非凸的,那么获得的都是局部最优。这样就不确定是不是可以收敛到全局最优的效果了。
在局部最优的时候,参数的表现是基本稳定下来,不再发生任何变化。既然使用的数据少(随机梯度下降法就用的数据少)可能无法找到局部最优值,因为在很大概率上,它确实是能够靠近的,又不用那么大的计算量,所以就被广泛使用了。
所以说我觉得其实都是期望收敛而已。
其实我觉得我说这么多,不一定说明白啥,基本上我个人是觉得对于这种随机梯度下降的方法是期望收敛而已,真的是没有办法确定是否收敛的。
毕竟我没有论文专业,更没有导师专业,我只是用我自己的知识能力去回答的问题,所以说我由衷的建议你去看论文,看不懂就去问导师了,那才是正道啊,像我们这种人,毕竟没有那么专业,我害怕让你误入歧途。
热心网友 时间:2022-05-04 21:12
梯度下降法是一个一阶最优化算法,通常也称为最速下降法。要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。
梯度下降法的优化思想
是用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是最速下降法,最速下降法越接近目标值,步长越小(cost函数是凸函数,比如x^2梯度就是越来越小),前进越慢。
梯度下降法的缺点
靠近极小值时速度减慢。
直线搜索可能会产生一些问题。
可能会“之字型”地下降。
梯度下降收敛速度慢的原因:
梯度下降中,x =φ(x) = x - f'(x),φ'(x) = 1 - f''(x) != 0极值领域一般应该不会满足为0。则根据高阶收敛定理2.6可以梯度下降在根*x附近一般一阶收敛。
梯度下降方法中,负梯度方向从局来看是二次函数的最快下降方向,但是从整体来看却并非最好。
梯度下降最优解
梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。
Mini-batch gradient它还是采用了batch的思路,也就是所有样本一起更新。和batch不同的是mini,在求解方向的时候选择了一部分样本一起更新,这样就减少了计算量,同时它又不像SGD那样极端只使用一个样本,所以保证了方向的精确性。