模型选择与训练集、验证集、测试集切分

  • 模型选择
  • 交叉验证集

模型选择

假设我们要在 10 个不同次数的二项式模型之间进行选择:

显然越高次数的多项式模型越能够适应我们的训练数据集,但是适应训练数据集并不代表着能推广至一般情况,我们应该选择一个更能适应一般情况的模型。我们需要使用交叉验证集来帮助选择模型。

交叉验证集

交叉验证集:训练集(train)用60%的数据,交叉验证集(validation)用20%的数据,测试集(test)用20%的数据

模型选择的方法为:

  1. 使用训练集训练出 10 个模型
  2. 用 10 个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值)
  3. 选取代价函数值最小的模型
  4. 用步骤 3 中选出的模型对测试集计算得出推广误差(代价函数的值)

牛刀小试

Todo: 在选定最终的模型以前, 能在测试集上进行测试吗?

答:不能, 只有选定了最终的模型, 才能在测试集上进行测试.