监督学习
这一节我们主要学习
- 监督学习
- 回归问题
- 分类问题
最典型的区别
监督学习(Supervised Learning)
根据训练数据是否拥有标记信息,学习任务可大致被分为两类:监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)
监督学习的代表是回归和分类。
无监督学习的代表是聚类。
回归(Regression)
波士顿房价案例
回归问题:预测连续值的模型。
下面是一个回归问题的最简单例子,房价的推断:
这是一些房价数据,横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是千美元。问题是基于这组数据,假如你有一个朋友,他有一套 750 平方英尺房子,现在他希望把房子卖掉,他想知道这房子能卖多少钱?
将数据可视化表现出来,既是图中的“红叉”。
应用学习算法,可以在这组数据中拟合一条直线(紫红色线),根据这条线可以推测出,这套房子可能卖150,000美元。
当然这不是唯一的算法。可能还有更好的,比如不用直线拟合这些数据,用二次方程去拟合可能效果会更好。根据二次方程的蓝色曲线,可以从这个点推测出,这套房子能卖接近200,000美元。
稍后我们将讨论如何选择学习算法,如何决定用直线还是二次方程来拟合,来使得预测合理。
分类(Classification)
乳腺癌案例
分类问题:预测离散值的模型。
下面是一个分类问题的简单例子,通过查看病历来推测乳腺癌良性与否:
数据集如下:横轴表示肿瘤的大小,纵轴上, 1 和 0 分别表示是或者不是恶性肿瘤。如果是恶性则记为1,不是恶性(良性)记为 0。
问题是有一个朋友很不幸检查出乳腺肿瘤。假设说她的肿瘤大概这么大,那么能否估算出肿瘤是恶性的或是良性的概率?
分类指的是,我们试着推测出离散的输出值:0(良性)或 1(恶性)。
而事实上在分类问题中,输出可能不止两个值。只有两个输出的被称为二分类问题(binary classification),多个输出被成为多分类(multi-class classification)
当需要处理的特征更多时,可以采用支持向量机等算法进行处理。
练习
现在来个小测验:假设你经营着一家公司,你想开发学习算法来处理这两个问题:
- 你有一大批同样的货物,想象一下,你有上千件货物等待出售,这时你想预测接下来的三个月能有多少营业额?
- 你有许多客户,这时你想写一个软件来检验每一个用户的账户。对于每一个账户,你要判断它们是否曾经被盗过?
那这两个问题,它们属于分类问题、还是回归问题?