非监督学习介绍
典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正样本和负样本的决策边界需要据此拟合一个假设函数。
无监督学习中,数据没有附带任何标签:
图上的数据看起来可以分成两个分开的点集(称为簇),一个能够找到我圈出的这些点集的算法,就被称为聚类算法。
聚类算法
聚类算法试图将数据集中的样本划分为若干个通常是不交集的子集,每个子集 称为一个簇(cluser)。形式化地说,假定样本集D=x1,x2,…,xm包含m个无标记样本,每个样本xi是一个n维特征向量,则聚类算法将样本D划分为k个不相交的簇Cl|l=1,2,…,k,其中Cl‘∩l‘≠lCl=∅且D=∪kl=1Cl。相应地,我们用λj∈1,2,…,k表示样本xj的“簇标记”(cluster label),即x∈Cλj。聚类结果也可以用包含m个元素的簇标记向量λ=(λ1,λ2,…,λk)表示。
牛刀小试
Todo: 你认为上面的无监督学习示意图中的样本点,可以聚为几类?
答:2类。