机器学习中用来防止过拟合的方法有哪些?

发布网友发布时间：2022-04-01 08:38

共1个回答

热心网友时间：2022-04-01 10:07

防止过拟合的方法：

1，从模型&数据角度。

获取更多数据，你的模型可以存储很多很多的信息，这意味着你输入模型的训练数据越多，模型就越不可能发生过拟合。原因是随着你添加更多数据，模型会无法过拟合所有的数据样本，*产生泛化以取得进步。

收集更多的数据样本应该是所有数据科学任务的第一步，数据越多会让模型的准确率更高，这样也就能降低发生过拟合的概率。

2，数据增强&噪声数据。

收集更多的数据会比较耗时耗力。如果没有时间和精力做这个，应该尝试让你的数据看起来更多元化一些。利用数据增强的方法可以做到这一点，这样模型每次处理样本的时候，都会以不同于前一次的角度看待样本。这就提高了模型从每个样本中学习参数的难度。

3，简化模型

即时你现在手中获取了所有需要的数据，如果你的模型仍然过拟合训练数据集，可能是因为模型过于强大。那么你可以试着降低模型的复杂程度。

4，从训练过程角度。

大部分情况下，模型会首先学习数据的正确分布，然后在某个时间点上开始对数据过拟合。通过识别模型是从哪些地方开始发生转变的，那么就可以在过拟合出现之前停止模型的学习过程。和前面一样，通过查看随着时间推移的训练错误，就可以做到这一点。

5，从正则化角度。

正则化是指约束模型的学习以减少过拟合的过程。它可以有多种形式，下面我们看看部分形式。L1和L2正则化正则化的一个最强大最知名的特性就是能向损失函数增加“惩罚项”（penalty）。

所谓『惩罚』是指对损失函数中的某些参数做一些*。最常见的惩罚项是L1和L2：L1惩罚项的目的是将权重的绝对值最小化，L2惩罚项的目的是将权重的平方值最小化。