误差矩阵

  • 偏斜类
  • 查全率与查准率

偏斜类

偏斜类(skewed classes)问题,表现为训练集中有非常多的同一种类的实例,只有很少或没有其他类的实例。

查全率与查准率

误差矩阵

将算法预测的结果分成四种情况:

  1. 正确肯定(True Positive,TP):预测为真,实际为真
  2. 正确否定(True Negative,TN):预测为假,实际为假
  3. 错误肯定(False Positive,FP):预测为真,实际为假
  4. 错误否定(False Negative,FN):预测为假,实际为真

查准率(Precision) = TP/(TP+FP)。
例:肿瘤预测中,在所有预测有恶性肿瘤的病人中,实际上有恶性肿 瘤的病人的百分比,越高越好。

查全率(Recall) = TP/(TP+FN)。
例:肿瘤预测中,在所有实际上有恶性肿瘤的病人中,成功预测有恶性肿瘤的病人的百分比,越高越好。

牛刀小试

Todo: 对于肿瘤预测来说, 查准率和查全率哪个更重要?

答:查全率