诊断偏差和方差
- 诊断偏差或是方差,即判断欠拟合还是过拟合
诊断偏差或方差
高偏差和高方差的问题基本上来说是欠拟合和过拟合的问题。
我们通常会通过将训练集和交叉验证集的代价函数误差与多项式的次数绘制在同一张图表上来帮助分析:
其中,训练集误差和交叉验证误差如下:
对于训练集,当 d 较小时,模型拟合程度更低,误差较大;随着 d 的增长,拟合程度提高,误差减小。
对于交叉验证集,当 d 较小时,模型拟合程度低,误差较大;但是随着 d 的增长,误差呈现先减小后增大的趋势,转折点是我们的模型开始过拟合训练数据集的时候。
如果我们的交叉验证集误差较大,我们如何判断是方差还是偏差呢? 根据上面的图表,我们知道:
- 训练集误差和交叉验证集误差近似时:偏差
- 交叉验证集误差远大于训练集误差时:方差
牛刀小试
Todo: 当训练集误差和交叉验证集误差近似时,是欠拟合还是过拟合? 当交叉验证集误差远大于训练集误差时,是欠拟合还是过拟合?
答:当训练集误差和交叉验证集误差近似时,是欠拟合,当交叉验证集误差远大于训练集误差时,是过拟合.