前面几篇文章介绍了无监督学习的聚类算法,无监督学习还有一个重要的作用就是给数据降维。
之前学习的好多方法,比如最近邻居法,K-聚类等都无法处理高纬度的数据。想象一下要对图片进行人脸识别,一张分辨率不高100x100像素的图片就有10000个维度, 一般的的机器学习方法是非常不好处理的。但是如果能将特征提取出来,比如眼镜,鼻子,嘴巴这些特征量找到,那将大大降低学习的难度。
人脸识别太复杂了,先举一个简单的例子,比如下面这个二维的数据,如何降到一维最合理?换句话说就是如何投射到一维上损失的信息最少?
之前的线性回归了解到,数据在长箭头方向似乎可以拟合出一条直线,然后将数据投射到这条线上就能够将这个二维的数据降成一维。
是的这就是线性降维。而那个最长的箭头我们叫做最大特征向量。关于最大特征向量(Eigenvector)和特征值(Eigenvalue)*将会在之后的文章中线性代数的部分介绍,这里可以直观地理解为线性拟合的方向即为最大特征向量。而将数据投射在这个方向损失的信息是最少的。
其实这个方法有个更广泛的名字叫做主成分分析(Principal Component Analysis-PCA)这里就简称PCA吧,只是刚刚举二维的例子比较好理解,类似与人脸识别这样的多维度问题,直观上就不好理解了,但是基本方法也就是PCA的基本原理。
PCA还能解决K-聚类或者最大期望法解决不了的聚类问题。如图:
这种情况不是找两个中心点就能聚类的,而是以每两个点对应的位置来分类的。
如图可以将每个点与其他点相邻的关系表达到右边的“矩阵图”中。
可以看到用PCA可以提取到三个最大特征向量(第四个特征向量不是最大特征向量可能是噪音),把数据分别“投射”到这三个特征向量上就轻松地把数据分开了。
——————————
相关文章
AI学习笔记——无监督学习(Unsupervised Learning)K聚类(K-means)
AI学习笔记——无监督学习(Unsupervised Learning)中的术语理解
AI学习笔记——无监督学习之最大期望算法(Expectation-maximization)
Thanks for reading my posts and welcome to comment. If you like my post , please upvote , resteem and follow me @hongtao
感谢您的阅读,欢迎留言,如果您喜欢我的帖子,请帮忙点赞、推送及关注我 @hongtao