欢迎光临散文网 会员登陆 & 注册

有朋友问了个问题:什么是协变量Covariate?

2023-04-04 11:21 作者:郑老师妙趣横生统计学  | 我要投稿

2023年以来浙中医大学郑老师开设了一系列医学科研统计课程,零基础入门医学统计包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、结构方程模型、孟德尔随机化等10门课,如果您有需求,不妨点击下方跳转查看:

2023年郑老师多门科研统计课程:多次直播,含孟德尔随机化方法

我们的统计学、流行病学教程很少提或者详细介绍协变量。所以现在论文到处在提协变量,于是有个朋友问我:协变量如何去理解呢?

在实验性研究、特别是在随机对照研究中,一个经常出现的词汇是协变量,英文是Covariate,这个词在传统的医学研究方法教材中很少出现,导致长久以来,无论动物实验、还是临床人群试验,几乎忽略它的存在,研究者很少认真考虑它对实验性研究结果的影响。初学者非常迷惑,很多英文SCI经常出现Covariate。什么是Covariate?它在统计分析中扮演什么角色?如何控制它的不良影响呢?

协变量是指不同干预措施前,研究者预计的、会对主要变量分析产生重要影响的因素。这类变量可以是定性,也可以是定量的,抑或是等级资料。其可以是人口统计学指标如年龄、体重、种族/民族等;也可以是一些疾病预后因素如疾病分型、病程或病情严重程度;当然还有一些其它因素如研究中心或研究者等。上述随机对照研究的基线信息均可以看作协变量,是随机对照研究设计和分析时必须要考虑的问题之一。

协变量对主要变量分析最重要的影响,指的是它往往会造成实验性研究干预措施疗效评价的偏倚。协变量,经常成为混杂变量。

随机对照研究中, 随机化作为一种必需手段,可避免处理组对象的分配偏倚, 并提供统计学假设检验的基础 。理论上, 随机化将确保所有的协变量在处理组间的平衡, 包括病人特征和疾病特征,比如年龄 、病情等 。然而, 实际工作中若仅用简单随机化, 则很难保证有些重要的协变量的平衡,尤其是当试验的样本含量较小时 。如果出现协变量不平衡, 而它们又与研究结果密切相关时,则这时不合理考虑协变量的影响,直接评价处理效应, 将很可能会导致结论的偏倚乃至错误。

所以,随机对照研究也会出现分组不均衡的情况,而分组不均衡的协变量可能带来结果偏倚。此时的协变量便是混杂因素,带来混杂偏倚。


1、如何控制协变量带来的偏倚?

有两类可用于调整处理组间潜在的或实际存在的不平衡的方法。第一类是防止试验设计阶段不平衡的方法,比如分层法和匹配法, 用来强制使处理组间在重要的和事先指定的协变量上达到平衡 。这些方法常被称为“事先控制“方法 。
另一类是在试验分析阶段调整不平衡的方法, 例如分层检验法 、回归模型法 。这些方法在比较处理组间的处理效应 、进行统计学检验时, 考虑到不平衡的协变量影响, 常叫做” 事后控制“方法 。


2、事先控制法

(1) 完全随机分组要使基线(已知的或未知的)在各处理组间达到均衡,最好的办法是使用随机分组。理论上,在样本量足够大时,通过完全随机分组,各种因素(已知的和未知的)在各处理组间的分布趋于均衡。
(2)分层随机化
按协变量取值进行分层随机化。在样本量不是很大时,即使通过简单随机分组,也不一定能确保各因素在各处理组间的分布达到期望的均衡状态。此时,可以按照协变量进行分层,采用分层随机化保证一些重要协变量在组间分布的均衡。但分层因素不宜太多,一般考虑最重要的 1~3 个因素,每个因素 2~3 个水平。

(3)匹配随机化如临床试验中,根据具体要求可将性别、体重、年龄、职业、病情和病程等条件相同或相近的病人配成对子(或列入一个区组),再将同对(或同一区组)的实验对象随机分配到到各处理组中去。配对(随机区组)设计可以使各处理组中的实验对象条件均衡,具有良好的可比性,由于控制了非处理因素的影响,使处理因素的效应能得到比较符合实际的客观反映。
关于随机区组分析,本系列文章之前已经有所介绍:SPSS 统计分析策略(8):随机区组设计方差分析


3、事后控制法

根据协变量的性质和需考虑的协变量数目的不同,需采用不同的方法对协变量进行校正:当主要结果变量为连续性指标时,可采用差值法或者协方差分析(analysis of covariance,ANCOVA);当主要结果变量和协变量是分类指标时,可采用分层分析;当有多个协变量需要考虑时,常采用相应的线性模型或广义线性模型进行校正。

(1)差值法在评价主要终点指标时,如果其基线取值是连续性变量,往往要考虑基线值的大小对预后的影响。常用的方法是计算观察指标相对于基线的变 化值,即治疗后观测值与基线值的差值,包括绝对差值或相对差值。绝对差值即干预后-干预前,相对差值即(干预后-干预前)/干预前 。
控制法,我们在之前的系列文章已经全面细致地进行介绍,欢迎点击学习:小统计大文章,如何利用简单统计学获得可靠证据(上)

(2)协方差方法通俗来讲,协方差分析是方差分析基础上加入协变量进行回归分析,也就是方差分析和线性回归分析的结合。大家都明白,方差分析是可以开展组间差异性分析,在分组均衡性的实验性研究中,方差分析可以证明处理因素与定量结局的关系;那么线性回归呢?在上一讲我已经介绍,线性回归可以控制混杂偏倚。既然如此,如果协变量是混杂变量,我们用线性回归分析便可以控制偏倚。因此,方差分析与回归分析相结合的协方差分析,可以用来控制偏倚、探讨处理因素效应。
例 1 按年龄、体重将 24 只大白鼠按照窝别和体重的相似性配成 8 个区组,再将每个区组的 3 只大白鼠随机分入 3 个饲料组。各组大白鼠的进食量控制在相近的条件下,3 组大白鼠进食量与所增体重测定结果如下表 。


详情请点击下方:

https://mp.weixin.qq.com/s?__biz=MzAwOTYyMDY3OQ==&mid=2650404839&idx=2&sn=4807b446903b395ea497bb2aec75c2f1&chksm=83518a4fb4260359b6f240c089d8bada510f92b7383b880f31a5761ffab6d8305ac49450241d&token=901562440&lang=zh_CN#rd

vx关注“医学论文与统计分析”,获取更多精彩内容!    

2023年统计服务 

2023年,我们将开展从科研设计、数据分析、统计学报告等医学科研研究方法咨询与服务多项服务,若您有课题经费可以支持,欢迎您提前和我们联系,2022底前采用预付方式与我们开展合作。 

2023年统计服务开启!欢迎提前洽谈数据分析、科研合作服务

有朋友问了个问题:什么是协变量Covariate?的评论 (共 条)

分享到微博请遵守国家法律