优先考虑什么
- 引入垃圾邮件分类器算法,讨论机器学习系统设计
准备工作
本周以一个垃圾邮件分类器算法为例进行讨论。
首先,决定如何选择并表达特征向量x:可以选择一个由 100 个最常出现在垃圾邮件中的词所构成的列表,根据这些词是否有在邮件中出现,来获得我们的特征向量(出现为 1,不出现为 0),尺寸为 100×1。
为了构建这个分类器算法,我们可以做很多事,例如:
优先考虑什么
- 收集更多的数据,让我们有更多的垃圾邮件和非垃圾邮件的样本
- 基于邮件的路由信息开发一系列复杂的特征
- 基于邮件的正文信息开发一系列复杂的特征,包括考虑截词的处理
- 为探测刻意的拼写错误(例如: 把 watch 写成 w4tch)开发复杂的算法