Processing math: 100%

高斯分布的异常检测算法

高斯分布的异常检测算法

对于给定的数据集x(1),x(2),,x(m),我们要针对每一个特征计算μσ2的估计值。

μj=1mmi=1x(i)j σ2j=1mmi=1(x(i)jμj)2

一旦我们获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算 p(x)p(x)=nj=1p(xj;μj,σ2j)=nj=112πσjexp((xjμj)22σ2j)

p(x)=nj=1p(xj;μj,σ2j)=nj=112πσjexp((xjμj)22σ2j)

p(x)<ε时,为异常。

下图是一个由两个特征的训练集,以及特征的分布情况:

下面的三维图表表示的是密度估计函数,z 轴为根据两个特征的值所估计p(x)值:

我们选择一个 ε,将 p(x)=ε 作为我们的判定边界,当 p(x)>ε 时预测数据为正常数据,否则为异常数据。

在这段视频中,我们介绍了如何拟合p(x),也就是 x 的概率值,以开发出一种异常检测算法。同时,在这节课中,我们也给出了通过给出的数据集拟合参数,进行参数估计,得到参数μσ,然后检测新的样本,确定新样本是否是异常。