数据可视化——四种非线性降维方式

如题所述

第1个回答 2022-06-19

非线性降维，计算数据集中每行与其他行的距离（默认为欧氏距离）转换为概率。
PCA属于线性降维，不能解释复杂多项式之间的关系，t-SNE是根据t分布随机领域的嵌入找到数据之间的结构特点。原始空间中的相似度由高斯联合概率表示，嵌入空间的相似度由“学生t分布”表示。
加载所需包

第一步：计算数据集中每行与其他行的距离（默认为欧式距离），转换为概率向量；
第二步：对每一行重复操作，得到概率矩阵；
第三步：沿两条新轴用学生t分布对数据随机化；
第四步：逐渐迭代，通过最小化KL散度，使得二维空间的新概率矩阵尽可能接近原高维空间。

较于正态分布，使用t分布能更好地分散可能的数据簇，更易识别；基于所实现的精度，将t-SNE与PCA和其他线性降维模型相比，结果表明t-SNE能够提供更好的结果,这是因为算法定义了数据的局部和全局结构之间的软边界。
缺点：不能保留全局结构、.计算量较大、不可预测新数据、无法像PCA一样投影新数据、簇间距离意义不大。

dims ：参数设置降维之后的维度，默认值为2
perplexity：控制距离转化为概率的分布：局部结构 5-30-50 全局结构，取值小于 (nrow(data) - 1)/ 3，数据集越大，需要参数值越大;
theta：权衡速度与精度，取值越大，精度越低。精确 0-0.5-1 最快，默认值0.5；
eta：学习率，越少越精确，越多迭代次数越少，默认值200；
max_iter：最多迭代次数，默认值1000。

真假钞数据,将banknote数据集去掉Status标签列后赋值给 bn.tsne

可视化

查看每个特征的降维效果图：

https://www.jianshu.com/p/824be2661d42

假设数据分布在流形上，并沿着流形测量行间距离，利用流形学和投影技术达到降维目的。

第一步，计算高维空间中的点之间的距离，将它们投影到低维空间，并计算该低维空间中的点之间的距离；
第二步，使用随机梯度下降来最小化这些距离之间的差异。

相较于 t-SNE ，计算量较小、可预测新数据、确定性算法、保留双结构

n_neighbors：控制模糊搜索区域的半径：更少邻域到更多邻域;
min_dist：低维下允许的行间最小距离：更集中到更分散；
metric：选择距离的测度方法：欧氏距离、曼哈顿距离等；
n_epochs：优化步骤的迭代次数。

数据框包含4个变量，50个观测。
Murder：每十万人中因谋杀逮捕人数
Assault：每十万人中因攻击逮捕人数
UrbanPop：城镇人口百分比
Rape：每十万人中因强奸逮捕人数

根据umap1的大小将数据分簇，并设置不同的颜色：

设定 n_components = 3，再运行 UMAP，将得到结果的 layout 部分传递给 ggpairs()。

as.data.frame() %>%
setNames(c("umap1", "umap2")) %>%
GGally::ggpairs() +
theme_bw()

https://www.jianshu.com/p/ffe8a7e1e5a0

是一种自组织（竞争型）神经网络，用两个维度来表示一个数据集，使相似的行更靠近。将距离小的个体集合划分为同一类别，距离大的个体集合划分为不同类别。
相较于K-means，SOM无需预先提供聚类数量。

SOM 与 LLE 的优点：非线性还原算法、新数据可以映射到SOM上、训练成本相当不高、LLE算法可重复。

SOM 与 LLE 的缺点：

1.输入层网络：输入层网络节点与数据集同行数，同列数，但数据集需要归一化。
2.输出层网络：一般根据数据集的维度来构建输出层网络。
（例：二维情况，希望分为4类，输出层可设计为4*2的矩阵）
3.随机给每个节点分配权重
根据输入层的数据集的维度和输出层的的预估分类数，定义权重节点的维度。
（例：数据集是二维的，权重的行数就定为2，分4类，权重的列数就选4。权重值一般给定一个0-1之间的随机值）
4.随机选择一行，并计算其与网格中每个节点权重的距离（相似度，通常为欧式距离），把此行放到权重与该行距离最小的节点中（BMU，best matching unit）。
5.更新BMU（基本思想是：越靠近优胜节点，更新幅度越大；越远离优胜节点，更新幅度越小）及其邻域内节点的权重（取决于邻域函数）。
6.重复步骤3-5，迭代指定次数。

LLE是广泛使用的图形图像降维方法，属于流形学习(Manifold Learning)的一种，实现简单，其假设数据在较小的局部是线性的，也就是说，某一个数据可以由它邻域中的几个样本来线性表示。（LLE 非常适合处理卷起或扭曲状的数据，但不能是闭合流形，不能是稀疏的数据集，不能是分布不均匀的数据集等等，这限制了它的应用。）

1.计算行间距，设定超参数k。
2.对一行选出其最近的k行，表示为其线性组合，该线性组合系数为权重。
3.对每行重复操作，使得数据在2或3维空间中（近乎）保持该线性组合关系。

优点：可以学习任意维的局部线性的低维流形、计算复杂度相对较小、实现容易。
缺点：算法对最近邻样本数的选择敏感，不同的最近邻数对最后的降维结果有很大影响。

除了维数，k （近邻数量）是唯一需要确定的超参数，K可以通过函数计算出来：calc_k()
① m 表示维数，通常2 或 3
② kmin，kmax 决定 k 取值域
③ parallel，是否多核运行，默认为否
④ cpus 指定使用 cpu 核数

设置列名

检查缺失值

3D图形展示

让3D图像可以用鼠标转动

找出使rho最小的K值

使用最优的K值，降维：

相似回答

大家正在搜