优先考虑什么

  • 引入垃圾邮件分类器算法,讨论机器学习系统设计

准备工作

本周以一个垃圾邮件分类器算法为例进行讨论。

首先,决定如何选择并表达特征向量x:可以选择一个由 100 个最常出现在垃圾邮件中的词所构成的列表,根据这些词是否有在邮件中出现,来获得我们的特征向量(出现为 1,不出现为 0),尺寸为 100×1。

为了构建这个分类器算法,我们可以做很多事,例如:

优先考虑什么

  1. 收集更多的数据,让我们有更多的垃圾邮件和非垃圾邮件的样本
  2. 基于邮件的路由信息开发一系列复杂的特征
  3. 基于邮件的正文信息开发一系列复杂的特征,包括考虑截词的处理
  4. 为探测刻意的拼写错误(例如: 把 watch 写成 w4tch)开发复杂的算法