有朋友问了个问题：什么是协变量Covariate？

2023-04-04 11:21 作者:郑老师妙趣横生统计学 0人读过 | 我要投稿

2023年以来浙中医大学郑老师开设了一系列医学科研统计课程，零基础入门医学统计包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、结构方程模型、孟德尔随机化等10门课，如果您有需求，不妨点击下方跳转查看：

2023年郑老师多门科研统计课程：多次直播，含孟德尔随机化方法

我们的统计学、流行病学教程很少提或者详细介绍协变量。所以现在论文到处在提协变量，于是有个朋友问我：协变量如何去理解呢？

在实验性研究、特别是在随机对照研究中，一个经常出现的词汇是协变量，英文是Covariate，这个词在传统的医学研究方法教材中很少出现，导致长久以来，无论动物实验、还是临床人群试验，几乎忽略它的存在，研究者很少认真考虑它对实验性研究结果的影响。初学者非常迷惑，很多英文SCI经常出现Covariate。什么是Covariate？它在统计分析中扮演什么角色？如何控制它的不良影响呢？

协变量是指不同干预措施前，研究者预计的、会对主要变量分析产生重要影响的因素。这类变量可以是定性，也可以是定量的，抑或是等级资料。其可以是人口统计学指标如年龄、体重、种族/民族等；也可以是一些疾病预后因素如疾病分型、病程或病情严重程度；当然还有一些其它因素如研究中心或研究者等。上述随机对照研究的基线信息均可以看作协变量，是随机对照研究设计和分析时必须要考虑的问题之一。

协变量对主要变量分析最重要的影响，指的是它往往会造成实验性研究干预措施疗效评价的偏倚。协变量，经常成为混杂变量。

随机对照研究中, 随机化作为一种必需手段，可避免处理组对象的分配偏倚，并提供统计学假设检验的基础。理论上，随机化将确保所有的协变量在处理组间的平衡，包括病人特征和疾病特征，比如年龄、病情等。然而, 实际工作中若仅用简单随机化，则很难保证有些重要的协变量的平衡，尤其是当试验的样本含量较小时。如果出现协变量不平衡，而它们又与研究结果密切相关时，则这时不合理考虑协变量的影响，直接评价处理效应，将很可能会导致结论的偏倚乃至错误。

所以，随机对照研究也会出现分组不均衡的情况，而分组不均衡的协变量可能带来结果偏倚。此时的协变量便是混杂因素，带来混杂偏倚。

1、如何控制协变量带来的偏倚?

有两类可用于调整处理组间潜在的或实际存在的不平衡的方法。第一类是防止试验设计阶段不平衡的方法，比如分层法和匹配法, 用来强制使处理组间在重要的和事先指定的协变量上达到平衡。这些方法常被称为“事先控制“方法。
另一类是在试验分析阶段调整不平衡的方法, 例如分层检验法、回归模型法。这些方法在比较处理组间的处理效应、进行统计学检验时, 考虑到不平衡的协变量影响， 常叫做” 事后控制“方法。

2、事先控制法
（1）完全随机分组要使基线（已知的或未知的）在各处理组间达到均衡，最好的办法是使用随机分组。理论上，在样本量足够大时，通过完全随机分组，各种因素（已知的和未知的）在各处理组间的分布趋于均衡。
（2）分层随机化
按协变量取值进行分层随机化。在样本量不是很大时，即使通过简单随机分组，也不一定能确保各因素在各处理组间的分布达到期望的均衡状态。此时，可以按照协变量进行分层，采用分层随机化保证一些重要协变量在组间分布的均衡。但分层因素不宜太多，一般考虑最重要的 1～3 个因素，每个因素 2～3 个水平。

（3）匹配随机化如临床试验中，根据具体要求可将性别、体重、年龄、职业、病情和病程等条件相同或相近的病人配成对子（或列入一个区组），再将同对（或同一区组）的实验对象随机分配到到各处理组中去。配对（随机区组）设计可以使各处理组中的实验对象条件均衡，具有良好的可比性，由于控制了非处理因素的影响，使处理因素的效应能得到比较符合实际的客观反映。
关于随机区组分析，本系列文章之前已经有所介绍：SPSS 统计分析策略（8）：随机区组设计方差分析

3、事后控制法

根据协变量的性质和需考虑的协变量数目的不同，需采用不同的方法对协变量进行校正：当主要结果变量为连续性指标时，可采用差值法或者协方差分析（analysis of covariance，ANCOVA）；当主要结果变量和协变量是分类指标时，可采用分层分析；当有多个协变量需要考虑时，常采用相应的线性模型或广义线性模型进行校正。

（1）差值法在评价主要终点指标时，如果其基线取值是连续性变量，往往要考虑基线值的大小对预后的影响。常用的方法是计算观察指标相对于基线的变化值，即治疗后观测值与基线值的差值，包括绝对差值或相对差值。绝对差值即干预后-干预前，相对差值即(干预后-干预前)/干预前。
控制法，我们在之前的系列文章已经全面细致地进行介绍，欢迎点击学习：小统计大文章，如何利用简单统计学获得可靠证据（上）

（2）协方差方法通俗来讲，协方差分析是方差分析基础上加入协变量进行回归分析，也就是方差分析和线性回归分析的结合。大家都明白，方差分析是可以开展组间差异性分析，在分组均衡性的实验性研究中，方差分析可以证明处理因素与定量结局的关系；那么线性回归呢？在上一讲我已经介绍，线性回归可以控制混杂偏倚。既然如此，如果协变量是混杂变量，我们用线性回归分析便可以控制偏倚。因此，方差分析与回归分析相结合的协方差分析，可以用来控制偏倚、探讨处理因素效应。
例 1 按年龄、体重将 24 只大白鼠按照窝别和体重的相似性配成 8 个区组，再将每个区组的 3 只大白鼠随机分入 3 个饲料组。各组大白鼠的进食量控制在相近的条件下，3 组大白鼠进食量与所增体重测定结果如下表。

详情请点击下方：

https://mp.weixin.qq.com/s?__biz=MzAwOTYyMDY3OQ==&mid=2650404839&idx=2&sn=4807b446903b395ea497bb2aec75c2f1&chksm=83518a4fb4260359b6f240c089d8bada510f92b7383b880f31a5761ffab6d8305ac49450241d&token=901562440&lang=zh_CN#rd

2023年统计服务

2023年，我们将开展从科研设计、数据分析、统计学报告等医学科研研究方法咨询与服务多项服务，若您有课题经费可以支持，欢迎您提前和我们联系，2022底前采用预付方式与我们开展合作。

2023年统计服务开启！欢迎提前洽谈数据分析、科研合作服务

标签：

有朋友问了个问题：什么是协变量Covariate？

1、如何控制协变量带来的偏倚?

2、事先控制法

3、事后控制法

详情请点击下方：

2023年，我们将开展从科研设计、数据分析、统计学报告等医学科研研究方法咨询与服务多项服务，若您有课题经费可以支持，欢迎您提前和我们联系，2022底前采用预付方式与我们开展合作。