临床生信文章普遍存在的两个统计问题

如题所述

第1个回答  2022-07-16
临床预后模型,大多包含风险分层和独立预后分析两个验证分析,而很多文章在两个分析上存在不严谨。下面介绍一些分析的关键点。

一般而言,预后模型会有训练集和验证集,有一些还分为了训练集、验证集和测试集。首先,在有多个数据集的情况下,对于表达谱数据,需要进行批次校正;其次,如果仅有训练集和验证集(两个独立队列),cutoff不必保证相同,而如果有训练集、验证集和测试集(其中训练集和验证集是一个队列的拆分),训练集和验证集的cutoff需要保持一致,测试集的cutoff不强求。

很多文章都会在构建了prognostic scoring system的基础上,将临床病理性状纳入做单因素和多因素回归,也就是独立预后分析,有的还会基于多因素Cox模型构建nomogram,但事实是大多数文章的结果不可靠。我们知道Cox回归需要满足PH假定,而对PH假定的检验主要有LML曲线法、KM曲线法和Schoenfeld's 检验法。
对于分类数据,如性别、病理分级、组织学分期、有无突变等等,用LML曲线法和KM曲线法检验,若曲线互不相交、互相分离,则一般认为满足PH假定,可以纳入Cox模型;对于连续型变量,如年龄、构建的评分系统、肿瘤大小等等,最好使用三种方法都进行检验,其中Schoenfeld's 检验的p值需要>0.05,若p<0.05,则纳入该因素的结果是不可靠的。

网上有一些解决办法,如分层回归和时依回归,但这两种方法操作起来相对困难且结果不易解释。有一种比较简单的方法大家可以试一试,但仅针对于连续变量。可以将连续变量变为分类数据,如年龄分为>60和<=60岁,risk score分为高低风险组,此时再用LML和KM检验法进行验证。如果对于分类变量还不满足PH假定,那只能考虑剔除这个因素或者进行分层/时依回归了。

对于分期、分级这样的等级变量,很多文章直接将数据变为0、1、2、3等,这是严谨的。应该将该变量设置成哑变量,设置其中一个哑变量为参考组 (reference),在数据科学中,称作热编码 (one-hot encoding)。

虽然以上分析比“不严谨”的方法操作起来多了一些步骤,但一旦被审稿人抓到把柄,返修起来将更加繁琐,所以还是一次做到位吧!
相似回答