分类
- 分类问题
- 逻辑回归
- 二分类问题
分类问题:需要预测的变量 y 是离散值。
在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;区别一个肿瘤是恶性的还是良性的。
逻辑回归 (Logistic Regression)
逻辑回归 (Logistic Regression) 是分类问题的一个代表算法,这是目前最流行使用最广泛的一种学习算法。
二分类问题
我们将因变量(dependant variable)可能属于的两个类分别称为负向类(negative class)和 正向类(positive class),则因变量 $y\in0$,其中 0 表示负向类,1 表示正向类。
如果我们要用线性回归算法来解决一个分类问题, 即使所有训练样本的标签 y 都等于 0 或 1,算法得到的值可能会远大于 1 或者远小于 0 ,不符合我们想要的结果。
分类问题下,可以采用逻辑回归的分类算法,这个算法的性质是:它的输出值永远在 0 到 1 之间。 它适用于标签 y 取值离散的情况,如:1 0 0 1。