用途 I 数据压缩
- 降维问题
- 动机一:数据压缩
假设我们未知两个的特征:$x_1$:长度:用厘米表示;$x_2$:是用英寸表示同一物体的长度。
所以,这给了我们高度冗余表示,也许不是两个分开的特征$x_1$和 $x_2$,这两个基本的长度度量,我们可以减少数据到一维。
将数据从二维降至一维: 假使我们要采用两种不同的仪器来测量一些东西的尺寸,其中一个仪器测量结果的单位是英寸,另一个仪器测量的结果是厘米,我们希望将测量的结果作为我们机器学习的特征。现在的问题是,两种仪器对同一个东西测量的结果不完全相等(由于误差、精等),而将两者都作为特征有些重复,因而,我们希望将这个二维的数据降至一维。
将数据从三维降至二维: 这个例子中我们要将一个三维的特征向量降至一个二维的特征向量。过程是与上面类似的,我们将三维向量投射到一个二维的平面上,强迫使得所有的数据都在同一个平面上,降至二维的特征向量。
这样的处理过程可以被用于把任何维度的数据降到任何想要的维度,例如将 1000 维的特征降至 100 维。