-
事实上,两者在计算量上有很大的不同,所以当面对一个给定的问题时,人们可以根据问题的性质有选择地选择两种方法中的一种。
具体来说,最。
小方块的矩阵公式为 ,其中 a 是矩阵,b 是向量。 如果存在离散数据点,并且要拟合的方程大致类似于 ,则 a 是 的矩阵。
第 i 行中的数据点分别是 ,b 是值为 的向量。众所周知,计算矩阵的逆函数非常耗时,而且反演也可能在数值上不稳定。
例如,几乎不可能反转希尔伯特矩阵)。因此,这样的计算方法有时不值得提倡。
相比之下,梯度下降法虽然有一些缺点,迭代次数可能比较多,但计算量相对不是特别大。 而且,在最小二乘法问题上,收敛***。 因此,当涉及到大数据量时,梯度下降(实际上应该是其他更好的迭代方法)更值得使用。
-
事实上,两者在计算量上有很大的不同,所以当面对一个给定的问题时,人们可以根据问题的性质有选择地选择两种方法中的一种。
具体来说,最小二乘法的矩阵公式是其中 a 是矩阵,b 是向量。 如果存在离散数据点,并且要拟合的方程大致类似于 ,则 a 是 的矩阵,分别是第 i 行中的数据点,b 是值为众所周知,计算矩阵的逆函数非常耗时,并且还存在反演在数值上不稳定的情况(例如,几乎不可能反转希尔伯特矩阵)。
因此,这样的计算方法有时不值得提倡。
相比之下,梯度下降法虽然有一些缺点,迭代次数可能比较多,但计算量相对不是特别大。 而且,在最小二乘法问题上,收敛***。 因此,当涉及到大数据量时,梯度下降(实际上应该是其他更好的迭代方法)更值得使用。
当然,梯度下降还有其他用途,例如其他极端问题。 此外,牛顿方法也是一个很好的方法,迭代收敛速度比梯度下降法快,但计算成本也更高。
-
最小二乘法的目标是找到误差的最小二乘法,它对应于两种类型:线性和非线性。 线性最小二乘法的解是闭式的,即非线性最小二乘法没有闭式,通常迭代求解。
迭代方法在每一步中逐渐接近未知量,可用于各种问题(包括最小二乘法),例如不是找到误差的最小平方和,而是找到最小二乘法的和。
梯度下降是一种迭代方法,可用于求解最小二乘问题(线性和非线性)。 高斯-牛顿法是另一种常用于求解非线性最小二乘法的迭代方法(在某种程度上可以看作是标准的非线性最小二乘解)。
还有一种称为 Levenberg-Marquardt 的迭代方法用于求解非线性最小二乘法问题,它结合了梯度下降和高斯-牛顿。 因此,如果最小二乘法是一个优化问题,那么梯度下降法是一种求解线性最小二乘法的方法,而高斯-牛顿和莱文伯格-马夸特可以用来求解非线性最小二乘法。
详情请参考维基百科(最小二乘法、梯度下降、高斯-牛顿算法、levenberg-marquardt 算法)。
机器学习的东西,这就是我们遇到这个问题的原因。 但正如其他人所指出的,这两种方法没有很强的可比性。 但是我在学校的时候也遇到过类似的问题。
当时,我的问题是,最小二乘法和梯度下降法的矩阵解在哪里? 我想,事实上,两者在计算量方面有很大不同,所以当面对给定的问题时,可以根据问题的性质有选择地选择两种方法中的一种。
具体来说,最小二乘法的矩阵公式是其中 a 是矩阵,b 是向量。 如果您有离散数据点,并且想要拟合一个大致类似于 的方程,则可能需要问这个问题。 <
-
例如,如果我想优化深度神经网络 (DNN) 的网络参数(换句话说,优化该网络的拟合结果对已知数据的正确性),是否可以使用最小二乘准则来衡量标准答案拟合结果的偏差程度? 还行。 同时,由于DNN模型本身的复杂性,我们无法像线性拟合那样在理论和公式层面上找到近似形式的解,因此我们需要引入所谓的BP算法(本质上是梯度下降法)来迭代求解参数。
但是( 虽然上面给出了最小二乘准则+梯度下降法串联使用的例子,但实际模仿垂直清拟合效果肯定比较普遍,因为DNN系统等价于非纤维头线性回归,所以最小二乘法不好,但是逻辑回归+最大似然=交叉熵准则交叉熵在DNN参数优化算法中更有效、更广泛。 当然,这是另一个话题。 <>
-
通常,我们所说的狭义的最小二乘法是指矩阵形式的公式方法,它使用最小二乘准则(或最小二乘法)来求解赤字第一次拒绝下的线性拟合参数。 因此,这里的最小二乘法应该叫最小二乘法或最小二乘法,小二乘法在百科全书条目中对应的英文就是最小二乘法。
在这里,基于线性回归,有两个细节很重要:
首先,线性回归模型假设这是最小二乘法的优越前提,否则不可能推导出最小二乘法是最佳(即最小方差)的无偏估计,请参考高斯-马尔可夫定理。 特别是,当随机噪声服从正态分布时,最小二乘法等于最大似然。 <>
最小二乘法(也称为最小二乘法)是一种数学优化技术。 它通过最小化误差的平方和来寻找数据的最佳函数匹配。 使用最小二乘法可以很容易地获得未知数据,并且这些计算数据与实际数据之间的误差平方和最小化。 >>>More