用PLS和OPLS分析代谢组数据

如题所述

主成分分析(PCA)和偏最小二乘法(PLS)是对变量数超过样本数量或变量之间存在多重共线性的组学数据进行可视化、回归、分类和特征选择的常用方法。

PLS和正交偏最小二乘法(OPLS)是有监督的模式,它们使用偏最小二乘回归建立代谢物表达量与样本类别之间的关系模型,实现对样品类别的预测,是一种建模类型的方法 相较而言,OPLS能够分别对相关因子和不相关变异进行建模,虽然计算方式与PLS相同,但OPLS具有更强的解释性。

而且,当无监督(PCA)无法很好地区分组间样本时,PLS-DA可以实现有效分离。并且PLS-DA和OPLS-DA所构建的分类预测模型,可进一步用于识别更多的样本类别,这是探索性的PCA方法无法做到的。

另外,PLS-DA和OPLS-DA所构建的分类模型中的载荷图可用于衡量各代谢物组分对样本分类判别的影响强度和解释能力,辅助标志代谢物的筛选。 ## 实例解读

OPLS-DA loading plots for different mulberry cultivars

该数据是通过液相色谱-高分辨率质谱(LC-HRMS)来研究年龄、体重指数(bmi)和性别对尿液中代谢物浓度的影响,是一个list具体包含:

由于目的是识别给定数据集的特征,而不是建模预测未知数据的分类,在这里将所有数据均作为训练集构建模型。

opls的计算结果中常用对象包括:

执行PLS统计建模时,一般会同时给出4个图片:

PLS-DA model of the gender response

显著性诊断(左上) :实际和模拟模型的R2Y和Q2Y值经随机排列后的散点图,模型R2Y和Q2Y(散点)大于真实值时(横线),表明产生过拟合 2

Inertia(惯量)柱形图(右上) :通过展示累计解释率评估正交组分是否足够

离群点展示(左下) :通过scoreMN和loadingMN计算出各样本在投影平面及正交平面的坐标,并标明相互差异较大的样本。

x-score plot(右下) :各样本在PLS-DA轴中的坐标;R2X、R2Y等值展示在下方,用于评估模型优度:

与其说是可视化方法,不如称为数据提取章节。

通过变量投影重要度(Variable Importance for the Projection,VIP),可以衡量各代谢物组分含量对样本分类判别的影响强度和解释能力,辅助标志代谢物的筛选(阈值通常设为1)。

Orthogonal partial least squares(OPLS) 将观测值矩阵X的差异分为两个部分:第一部分代表与Y相关的差异,第二部分代表与Y不相关(正交垂直)的差异,结果展示时需要结合起来讨论;由于OPLS区分了无关变量数据,从而使模型更加容易解读。

另外,OPLS可以更好地避免过拟合现象,预测性能优势并没有明显提升;因此,如果PLS-DA模型尚可:“summary”的4个plot的结果比较好,仍推荐使用PLS-DA。

执行OPLS后的数据提取,与PLS和PCA略有不同,需要同时考虑得分矩阵和正交矩阵。

过度拟合(Overfitting)是当机器学习应用于具有比样本更多变量的数据集的主要问题;前期随机数实验表明:当变量的数量超过样本的数量时,可以实现完美的PLS-DA分类。而,当样本数量超过观测的数量时,PLS过度拟合可能发生。因此,有必要通过标签的随机排列来检查模型的Q2Y值是否显著。

1. Li, H. et al. Abnormal expression of bHLH3 disrupts a flavonoid homeostasis network, causing differences in pigment composition among mulberry fruits. Hortic Res 7 , 83 (2020).

2. Thevenot, E. A., Roux, A., Xu, Y., Ezan, E. & Junot, C. Analysis of the human adult urinary metabolome variations with age, body mass index and gender by implementing a comprehensive workflow for univariate and opls statistical analyses. Journal of Proteome Research 14 , 3322–3335 (2015).

3. Thévenot, E. A., Roux, A., Xu, Y., Ezan, E. & Junot, C. Analysis of the human adult urinary metabolome variations with age, body mass index, and gender by implementing a comprehensive workflow for univariate and opls statistical analyses. 14 , 3322–3335 (2015).

温馨提示:答案为网友推荐,仅供参考
第1个回答  2024-01-12
一、PLS(偏最小二乘法)
PLS是一种多变量分析方法,广泛用于化学和生物信息学领域。它可以同时处理多个预测变量和多个响应变量,寻找这些变量之间的关系。在代谢组学中,PLS常用于分析样本(如生物样本)的多种代谢物浓度与生物学性状(如疾病状态)之间的关系。
1.优势:
PLS能有效处理变量多、样本少的数据集,尤其是当预测变量数量远大于样本数量时。
2.应用:
在代谢组学中,PLS常用于识别哪些代谢物与特定的生物学性状相关。
二、OPLS(正交偏最小二乘法)
OPLS是PLS的一个变体,增加了正交信号校正。这种方法能够更好地区分解释变量和响应变量之间的相关和非相关部分。
1.优势:
OPLS在提高模型解释能力和预测准确性方面优于传统PLS,特别是在处理复杂的生物数据时。
2.应用:
在代谢组学中,OPLS被用于从复杂的代谢数据中提取与特定生物学效应最相关的代谢物信息。
相似回答