CDISC递交数据--Origin实例续讲
上篇文章末尾的图片,此篇文章会一一介绍。
CRF
All the variables mapped from CRF fields should have origin of CRF. This includes variables with Multiple rule and text greater than 200 characters split into multiple variables.
唯一模糊的是”Multiple rule”,我个人理解为,比如SEX实际CRF填写的内容是Female or Male,但是我们需要以标准的F or M来呈现去递交,这样被某些标准规则去改变呈现方式的变量如果是在CRF上收集,则Origin=CRF。
跟--STRESC, --STRESN不同,这些改变的不仅是呈现方式,绝大部分都会改变原有值。
上图SUEVLINC和DFTPTREF是属于pre-printed在CRF上,故Origin=CRF。
Pre-printed:顾名思义“预印”,就是已经打印在CRF上的,我们把其中的一些文字提取出来作为某个变量,甚至是把这些文字进行变形。比如SUEVLINC已经retired,目前在用SUEVLINT,把“within 30 days prior to elevated labs”变形为”-P30D”。
Assigned
从CDSIC编码表或申办方编码表中映射的--TEST值
从LB查询表(look-up)中映射的类似LBCAT、LBSCAT、LBSPEC的值
从CDSIC编码表或申办方编码表中映射的--STRESU的值
--DECOD的值,比如DSDECOD, AEDECOD等等
除了以上从LOOK UP映射过来的还有为了使一个record完整的rule。
比如--PRESP, --REDOFL, --PHEPFL, --VENTYP, -- ECMOOD等等可以完善record。
--SPID,--GRPID
这些变量是申办方定义的标识符,便于溯源到原始数据集,也便于RELREC中的数据集关联。
eDT
字面意思,不做过多解释。
Protocol
不在CRF中收集且only available in Protocol
比如STUDYID;
仅在Trial design中的变量 ARM,ELEMET,EPOCH...;
EXDOSFRM...
Derived
Derive的数据不是直接从CRF上收集的,而是通过某种算法或可重复性规则计算得来的。
比如USUBJID,--STRESC,--STRESN,--BLFL,Population flag。
在RAVE系统中,有部分变量是系统自己derive,一般在CRF上都会有Derived的标记,这些也要算作Derived。
变量在不同的domain也呈现不同的Origin。
比如EPOCH,TA中是Protocol。
在SE以及以及其他数据集中,EPOCH是基于各element的开始和结束时间生成的。
比如VISIT,TV中是Protocol。
在SV中非计划外访视是根据规则衍生出来,是Derived。
其他数据集以SV作为参照即look-up,衍生出的visit,是Assigned。
延伸:
其实Assigned和Derived是存在“灰色地带”,可能存在某些变量无法辨别,无法了解变量更多的细节。那么建议最好写为Derived,然后写明具体的computation method。
还有就是adam如果是来源于相同的sdtm变量,在最后的define,我们需要填写Origin=Predecessor并填写具体来源sdtm数据集和变量。
有部分图片没展示出来,有兴趣可移步wx“gong zhong hao”: CDISC_SAS