临床生信文章普遍存在的两个统计问题

如题所述

第1个回答 2022-07-16

临床预后模型，大多包含风险分层和独立预后分析两个验证分析，而很多文章在两个分析上存在不严谨。下面介绍一些分析的关键点。

一般而言，预后模型会有训练集和验证集，有一些还分为了训练集、验证集和测试集。首先，在有多个数据集的情况下，对于表达谱数据，需要进行批次校正；其次，如果仅有训练集和验证集（两个独立队列），cutoff不必保证相同，而如果有训练集、验证集和测试集（其中训练集和验证集是一个队列的拆分），训练集和验证集的cutoff需要保持一致，测试集的cutoff不强求。

很多文章都会在构建了prognostic scoring system的基础上，将临床病理性状纳入做单因素和多因素回归，也就是独立预后分析，有的还会基于多因素Cox模型构建nomogram，但事实是大多数文章的结果不可靠。我们知道Cox回归需要满足PH假定，而对PH假定的检验主要有LML曲线法、KM曲线法和Schoenfeld's 检验法。
对于分类数据，如性别、病理分级、组织学分期、有无突变等等，用LML曲线法和KM曲线法检验，若曲线互不相交、互相分离，则一般认为满足PH假定，可以纳入Cox模型；对于连续型变量，如年龄、构建的评分系统、肿瘤大小等等，最好使用三种方法都进行检验，其中Schoenfeld's 检验的p值需要>0.05，若p<0.05，则纳入该因素的结果是不可靠的。

网上有一些解决办法，如分层回归和时依回归，但这两种方法操作起来相对困难且结果不易解释。有一种比较简单的方法大家可以试一试，但仅针对于连续变量。可以将连续变量变为分类数据，如年龄分为>60和<=60岁，risk score分为高低风险组，此时再用LML和KM检验法进行验证。如果对于分类变量还不满足PH假定，那只能考虑剔除这个因素或者进行分层/时依回归了。

对于分期、分级这样的等级变量，很多文章直接将数据变为0、1、2、3等，这是严谨的。应该将该变量设置成哑变量，设置其中一个哑变量为参考组 (reference)，在数据科学中，称作热编码 (one-hot encoding)。

虽然以上分析比“不严谨”的方法操作起来多了一些步骤，但一旦被审稿人抓到把柄，返修起来将更加繁琐，所以还是一次做到位吧！

相似回答

生信分析和meta分析有什么不同答：相比之下，生信分析要求分析师具备相当丰富的生物学背景知识，而meta 分析对于背景知识要求并不高。此外，由于meta 分享依赖于已有的研究成果，因此它受到文章质量、发表时间以及作者影响较小。相反，生信则存在较大的风险，因为它依赖于底层数据的准确性和可靠性。生信分析是对生物信息学数据进行统计建模和分...

生信文章如何补实验?答：数据分析：对实验得到的数据进行分析，以验证生物信息学分析的预测。这可能涉及统计分析、图像处理、数据解读等。整合生信与实验数据：将实验数据与生物信息学分析结果相结合，形成一个统一的结论。这可能需要对比分析、数据挖掘或建模等方法。撰写论文：在论文中详细描述实验设计、操作步骤、数据分析和综合结论。

[生信基础知识]几种常用的差异表达基因识别方法FC,T检验,SAM...答：由于t检验要求数据呈现正太分布，所以公式中基因的表达值为测量值经过标准化后的值，反应的是两类样本间基因表达的倍数变化，也存在FC方法同样的偏向性。此外，对基础表达量低的基因来说，一个微小变异程度（标准误）可能导致一个大的绝对t统计值,从而被识别为DE基因，即使在两类条件下这个基因的平均表达...

如何做生物信息,学发 SCI 文章答：因为整个分析过程都是建立在生信分析的基础上，属于完全架空的，所以整个研究过程十分讲究逻辑上的严谨性。小结之所向大家介绍这篇文章，是觉得这种思路在生信分析的文章中可以借鉴，种子基因的选择可以通过临床上疾病中基因突变的概率来进行筛选，然后构建两层 PPI 网络，进行 GO，KEGG 分析，从而预测新的...

自学生信分析要多长时间答：一个星期左右。如果学习操作时间足够，而且是基于别人写好的分析流程，估计几天就可以完成了，例如我们以细胞焦亡的纯生信分析为例：1、数据下载与整理。2、差异分析。3、进行肿瘤分型，并且进行生存分析。4、构建模型，计算risk score, risk score结合临床因素分析。5、根据risk score分组做差异分析，并且...

两个审稿人的意见不一致,结果期刊主编只看一个人的,太悲剧了答：最近有一位粉丝投了一篇生信文章，遇到两个审稿人的意见完全不一致：第一个审稿人认为文章有一定的研究意义，修改一下语言问题小修后就可以接收出版；第二个审稿人则给出如下的拒稿理由：The data seemed to be interesting. However, the data were shown in very low resolution and difficult to ...

大家正在搜

现在学生普遍存在的问题生物之间的什么是普遍存在的社会普遍存在的问题农村普遍存在的问题普遍存在的存在的问题统计学在临床研究存在主要问题普遍存在是什么意思