用PLS和OPLS分析代谢组数据

如题所述

推荐答案 2022-06-22

主成分分析(PCA)和偏最小二乘法(PLS)是对变量数超过样本数量或变量之间存在多重共线性的组学数据进行可视化、回归、分类和特征选择的常用方法。

PLS和正交偏最小二乘法(OPLS)是有监督的模式，它们使用偏最小二乘回归建立代谢物表达量与样本类别之间的关系模型，实现对样品类别的预测，是一种建模类型的方法相较而言，OPLS能够分别对相关因子和不相关变异进行建模，虽然计算方式与PLS相同，但OPLS具有更强的解释性。

而且，当无监督(PCA)无法很好地区分组间样本时，PLS-DA可以实现有效分离。并且PLS-DA和OPLS-DA所构建的分类预测模型，可进一步用于识别更多的样本类别，这是探索性的PCA方法无法做到的。

另外，PLS-DA和OPLS-DA所构建的分类模型中的载荷图可用于衡量各代谢物组分对样本分类判别的影响强度和解释能力，辅助标志代谢物的筛选。 ## 实例解读

OPLS-DA loading plots for different mulberry cultivars

该数据是通过液相色谱-高分辨率质谱(LC-HRMS)来研究年龄、体重指数(bmi)和性别对尿液中代谢物浓度的影响，是一个list具体包含：

由于目的是识别给定数据集的特征，而不是建模预测未知数据的分类，在这里将所有数据均作为训练集构建模型。

opls的计算结果中常用对象包括:

执行PLS统计建模时，一般会同时给出4个图片：

PLS-DA model of the gender response

显著性诊断(左上) ：实际和模拟模型的R2Y和Q2Y值经随机排列后的散点图，模型R2Y和Q2Y(散点)大于真实值时(横线)，表明产生过拟合² 。

Inertia(惯量)柱形图(右上) ：通过展示累计解释率评估正交组分是否足够

离群点展示(左下) ：通过scoreMN和loadingMN计算出各样本在投影平面及正交平面的坐标，并标明相互差异较大的样本。

x-score plot(右下) ：各样本在PLS-DA轴中的坐标；R2X、R2Y等值展示在下方，用于评估模型优度：

与其说是可视化方法，不如称为数据提取章节。

通过变量投影重要度(Variable Importance for the Projection，VIP)，可以衡量各代谢物组分含量对样本分类判别的影响强度和解释能力，辅助标志代谢物的筛选(阈值通常设为1)。

Orthogonal partial least squares(OPLS) 将观测值矩阵X的差异分为两个部分：第一部分代表与Y相关的差异，第二部分代表与Y不相关（正交垂直）的差异，结果展示时需要结合起来讨论；由于OPLS区分了无关变量数据，从而使模型更加容易解读。

另外，OPLS可以更好地避免过拟合现象，预测性能优势并没有明显提升；因此，如果PLS-DA模型尚可：“summary”的4个plot的结果比较好，仍推荐使用PLS-DA。

执行OPLS后的数据提取，与PLS和PCA略有不同，需要同时考虑得分矩阵和正交矩阵。

过度拟合(Overfitting)是当机器学习应用于具有比样本更多变量的数据集的主要问题;前期随机数实验表明：当变量的数量超过样本的数量时，可以实现完美的PLS-DA分类。而，当样本数量超过观测的数量时，PLS过度拟合可能发生。因此，有必要通过标签的随机排列来检查模型的Q2Y值是否显著。

1. Li, H. et al. Abnormal expression of bHLH3 disrupts a flavonoid homeostasis network, causing differences in pigment composition among mulberry fruits. Hortic Res 7 , 83 (2020).

2. Thevenot, E. A., Roux, A., Xu, Y., Ezan, E. & Junot, C. Analysis of the human adult urinary metabolome variations with age, body mass index and gender by implementing a comprehensive workflow for univariate and opls statistical analyses. Journal of Proteome Research 14 , 3322–3335 (2015).

3. Thévenot, E. A., Roux, A., Xu, Y., Ezan, E. & Junot, C. Analysis of the human adult urinary metabolome variations with age, body mass index, and gender by implementing a comprehensive workflow for univariate and opls statistical analyses. 14 , 3322–3335 (2015).

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/UDpvi99DssnD99si2Uv.html

其他回答

第1个回答 2024-01-12

一、PLS（偏最小二乘法）
PLS是一种多变量分析方法，广泛用于化学和生物信息学领域。它可以同时处理多个预测变量和多个响应变量，寻找这些变量之间的关系。在代谢组学中，PLS常用于分析样本（如生物样本）的多种代谢物浓度与生物学性状（如疾病状态）之间的关系。
1.优势:
PLS能有效处理变量多、样本少的数据集，尤其是当预测变量数量远大于样本数量时。
2.应用:
在代谢组学中，PLS常用于识别哪些代谢物与特定的生物学性状相关。
二、OPLS（正交偏最小二乘法）
OPLS是PLS的一个变体，增加了正交信号校正。这种方法能够更好地区分解释变量和响应变量之间的相关和非相关部分。
1.优势:
OPLS在提高模型解释能力和预测准确性方面优于传统PLS，特别是在处理复杂的生物数据时。
2.应用:
在代谢组学中，OPLS被用于从复杂的代谢数据中提取与特定生物学效应最相关的代谢物信息。

相似回答

【代谢组学】3.数据分析答：用R2和Q2进行模型评价。 R2是相关性系数，表示这个模型的拟合效果，是一个定量的测量（范围0-1），意味着所建立的模型能在多大程度上代表真实的数据；一般当R2在0.7-0.8表示模型解释能力较好，较差的模型的R2往往为0.2-0.3 Q2表示PLS-DA模型的预测能力；一般Q2大于0.5表示预测...

MetaboAnalyst:代谢组学PCA,OPLS-DA分析答：Click here to start 如果你上传的列表中每一列为一个样本，Format选择Samples in columns；如果每一行为一个样本，Format选择Samples in rows 点击Submit Data Integrity Check:Data Filtering:Filtering features if their RSDs are > 25 Interquantile range (IQR)Normalization overview:点击proceed ...

使用SIMCA-P做pls分析答：SIMCA-P作为一款专业的统计软件，提供了一个用户友好的界面和强大的分析工具。使用SIMCA-P进行偏最小二乘分析主要涉及以下步骤：1. 数据准备数据格式：确保数据以SIMCA-P软件能够识别的格式导入，通常是CSV或Excel格式。数据组织：数据应该组织为样本（行）和变量（列），例如，在代谢组学研究中，每一行...

【代谢组学】4.生物标志物分析答：上图是单变量的ROC分析，针对单个代谢组分子或单组学数据。实际上，可以将多个代谢物或多个组学数据作为组合来进行预测，称之为多变量ROC分析。不同模型预测的结果也可以同时在一张图中比较。多变量ROC分析主要是用于探寻最佳的生物标志物组。通过选择RandomForest，SVM和PLS-DA 等多元统计分类算法，选择不...

plsda图怎么解释答：PLS-DA图的解释需要结合实验设计和研究背景。例如，在代谢组学研究中，成分的分离可能与特定生物标志物或代谢途径相关。理解PLS-DA的结果需要结合具体的研究背景和数据特性。在解读结果时，应该注意不仅仅依赖于图形本身，还要结合其他统计分析结果，如模型的预测准确度、交叉验证结果等，以综合判断模型的有效...

找CRO做代谢组学检测需要注意哪些关键点?答：代谢组学又包含样本前处理、数据获取、峰检测、峰对齐、差异特征筛选、化合物鉴定、二级谱验证、定量检测等流程，其中除了实验标准，质量把控要严格外，一直被大家疏忽的还有数据处理部分，如果检测信号不准确，批次效应无法对齐，不同方法得到的实验结果完全是不一样的。下面实验时我用相同数据，采用不同...

大家正在搜

转录组和代谢组关联分析代谢组数据分析代谢组主成分分析结果怎么写代谢组怎么分析代谢组回归分析代谢组分析平台代谢组分析多少钱代谢组分析一个样多少钱代谢组和转录组的关系