PCA;MDS;TSNE
PCA:
PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA采用一个线性变换将数据变换到新的坐标系统,使得任何数据点投影到第一个坐标的方差最大,第二个坐标方差为第二大,依此类推。因此,PCA可以减少数据维数,并保持对方差贡献最大的特征。
优点:
??? 使得数据集更易使用;
?? ?降低算法的计算开销
?? ?去除噪声;
?? ?使得结果容易理解;
?? ?完全无参数限制。
缺点:如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却无法通过参数化等方法对处理过程进行干预,可能会得不到预期的效果,效率也不高;
特征值分解有一些局限性,比如变换的矩阵必须是方阵;
在非高斯分布情况下,PCA方法得出的主元可能并不是最优的。
MDS:
MDS的基本原理是根据数据集的相似程度,计算各数据点在K维空间中的位置。算法的关键在于定于数据点之间的距离函数,使其尽可能逼近数据在原始高维空间的相似程度。
缺点:结果不具备旋转无关性,即两次计算获得全局最优解需要实施旋转变换后才会一致。此外,不同的初始值可能导致结果不同,即陷入局部最优。因此,使用MDS法时只能关注数据点在低位空间的相对位置,而不是绝对位置。
t-SNE:
?? SNE是通过仿射变换将数据点映射到概率分布上,主要包括两个步骤:
?? ?SNE构建一个高维对象之间的概率分布,使得相似的对象有更高的概率被选择,而不相似的对象有较低的概率被选择。
?? ?SNE在低维空间里在构建这些点的概率分布,使得这两个概率分布之间尽可能的相似。
?? ?t-SNE是在SNE的基础上进行了以下两点改进:
?? ?使用对称SNE,简化梯度公式
?? ?低维空间使用t分布取代高斯分布
优点:改变了MDS中基于距离不变的思想,将高维映射到低维的同时,尽量保证相互之间的分布概率不变,SNE将高维和低维中的样本分布都看作高斯分布,而Tsne将低维中的坐标当做T分布,这样做的好处是为了让距离大的簇之间距离拉大,从而解决了拥挤问题。
?? ?tSNE在使用时只需要稍微调整参数,就能在不同规模下展现高维数据点的聚类。
缺点:
?? 主要用于可视化,很难用于其他目的。
?? ?t-SNE倾向于保存局部特征,对于本征维数本身就很高的数据集,是不可能完整的映射到2-3维的空间
?? ?t-SNE没有唯一最优解,且没有预估部分。
?? ?训练太慢。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!