异常检测与监督学习的对比
异常检测与监督学习的对比
之前我们构建的异常检测系统也使用了带标记的数据,与监督学习有些相似,下面的对 比有助于选择采用监督学习还是异常检测:
两者比较:
异常检测 | 监督学习 |
---|---|
非常少量的正向类(异常数据 y=1), 大量的负向类(y=0) | 同时有大量的正向类和负向类 |
许多不同种类的异常,非常难。根据非常少量的正向类数据来训练算法。 | 有足够多的正向类实例,足够用于训练0算法。 |
未来遇到的异常可能与已掌握的异常、非常的不同。 | 未来遇到的正向类实例可能与训练集中的非常近似。 |
例如: 1. 欺诈行为检测 2. 生产(例如飞机引擎) 3. 检测数据中心的计算机运行状况 | 例如: 1. 邮件过滤器 2. 天气预报 3. 肿瘤分类 |
希望这节课能让你明白一个学习问题的什么样的特征,能让你把这个问题当做是一个异常检测,或者是一个监督学习的问题。
另外,对于很多技术公司可能会遇到的一些问题,通常来说,正样本的数量很少,甚至有时候是0,也就是说,出现了太多没见过的不同的异常类型,那么对于这些问题,通常应该使用的算法就是异常检测算法。