紧跟“临床公共数据挖掘”热潮!吐血整理了文章常用的6大【临床公共数据库】,赶快码

【生信日报】又更新啦 ~
今天小记者带来的是个新话题“临床公共数据挖掘”
如果经常关注最新文章,对科研发文趋势比较敏感的话,你可能已经察觉到了“临床公共数据挖掘”的文章数据正在迅速增长,掀起了一股发文热潮(ps:没有察觉到的小伙伴也不用担心,只要每天来【生信日报】这看看就可以啦,小记者会及时追踪跟进最近科研热点和发文趋势的)
那 “临床公共数据挖掘”为什么火起来了呢?小记者认为它是生信内卷的一个强有力的突破口,只需要做纯数据挖掘,不用加实验,还容易发高分。生信卷不动了或者没条件去卷了,那我们就换个竞争小的跑道,利用临床数据挖掘来实现换道超车!(ps:对这个问题有不同意见的小伙伴欢迎在文末留言,与小记者和各位同道在线讨论哦)
既然热潮又起,我们就不能袖手旁观,并且要做尽早上车的那波人,因为只有早上车才能享受到现在低投入高回报的发文红利,该懂得都懂了吧

要开展此类课题,第一步就是获得公共数据,从哪里获得呢?必须是公共数据库呀!所以本期内容小记者就给小伙们整理了文章常用的6大【临床公共数据库】,有需要的朋友快收藏吧!

p SEER数据库

n 数据库简介:SEER数据库(Surveillance, Epidemiology, and End Results Program),是美国国家癌症研究所监测,流行病学和最终结果数据库,是临床常用的公共数据库之一。它收录了大量的临床肿瘤回顾性研究资料,涵盖了9大类部位肿瘤(乳腺肿瘤、结肠与直肠肿瘤、其他消化系统肿瘤、女性生殖系统肿瘤、淋巴系统肿瘤与血液系统肿瘤、男性生殖肿瘤、呼吸系统肿瘤、泌尿系统肿瘤及其他尚未确定的类型),数据记录中包括患者的注册编号、个人信息、原发病灶部位、肿瘤尺寸、肿瘤编码、治疗方案、死亡原因等信息。数据获取便捷、公开免费(部分数据需获得权限后才可下载),因而以SEER数据库为数据来源的SCI文章正逐年增长。数据库网址为:https://seer.cancer.gov/SEER
n 文献应用示例:

p NHANES数据库

n 数据库简介:国家健康与营养调查(National Health And Nutrition Examination Survey,NHANES),是美国疾病控制和预防中心(CDC)旨在评估美国成人和儿童的健康和营养状况进而执行的一项基于人群的横断面调查研究计划。项目每年调查约5000人的全国代表性样本,收集了人群中慢性病患病率的数据,同时调查风险因素(即一个人的生活方式、体质、遗传、环境中可能增加患病机会的因素)。研究的疾病和健康指标包括:贫血、心血管疾病、糖尿病、环境暴露眼疾、听力损失、传染性疾病、肾脏疾病、营养、肥胖、口腔健康、骨质疏松、生育史和性行为、呼吸系统疾病、性病、视力等,研究结果可用于确定慢性疾病的患病率和危险因素,便于研究者开展流行病学研究,并为政府公共卫生政策和卫生服务计划的制定提供依据。数据库每两年进行一次调查,两年称为一个cycle year。网址为:http://www.cdc.gov/nchs/nhanes/index.htm
n 文献应用示例

p UK biobank数据库

n 数据库简介:UK Biobank(英国生物银行)是一个大型生物医学数据库和研究资源,也是目前世界上规模最大的人类遗传队列样本库。它收集了2006年至2010年英国各地约50万人的遗传、身体和健康数据,涵盖了丰富的基本结构化数据、高通量的基因组学遗传数据和多模态影像数据,覆盖了各个年龄段、性别、地理区域和种族。数据包含了各种重大疾病,如各种癌症、心血管疾病、中风、痴呆、糖尿病、关节炎、骨质疏松、眼部疾病、抑郁等,旨在研究遗传因素、环境因素、生活习惯等与人类重大疾病的关联。数据库申请许可后可以开放使用,目前已经很多人利用该数据库产出孟德尔随机研究的高质量文章。网址:https://www.ukbiobank.ac.uk/
n 文献应用示例

针对以上3个最常用的临床公共数据库,我们来浅浅对比下~

(对比信息来源:chatGPT)
p CHARLS数据库

n 数据库简介:中国健康与养老追踪调查(China Health and Retirement Longitudinal Survey, CHARLS)是由北大国发院主持、北大中国社会科学调查中心与北大团委共同执行的大型跨学科纵向调查项目,旨在收集一套代表中国45岁及以上中老年人家庭和个人的高质量微观数据,CHARLS问卷内容包括:个人基本信息,家庭结构和经济支持,健康状况,体格测量,医疗服务利用和医疗保险,工作、退休和养老金、收入、消费、资产,以及社区基本情况等。用以分析我国人口老龄化问题,推动老龄化问题的跨学科研究,为制定和完善我国相关政策提供更加科学的基础。CHARLS全国基线调查于2011年开展,覆盖150个县级单位,450个村级单位,约1万户家庭中的1.7万人。这些样本以后每两到三年追踪一次,调查结束一年后,数据将对学术界公开,目前已有4期数据2011(wave 1)、2013(wave2)、2015(wave 3)以及2018(wave 4)。网址:http://charls.pku.edu.cn/
n 文献应用示例

p MIMIC数据库

n 数据库简介:MIMIC重症系列主要包括MIMIC-II,MIMIC-III,MIMIC-IV数据库等。其中,使用较多的是MIMIC-III数据库,由麻省理工学院开发,数据来自波士顿 BIDMC(Beth Israel Deaconess Medical Center,贝斯以色列女执事医疗中心)的 ICU 患者(包括内外科 ICU、CCU、心脏术后监护 CSRU 和创伤术后监护 TSICU,囊括了从 2001 年到 2012 年 53423 例次的住院病人信息。MIMIC 记录了患者的生命体征、化验检查、治疗用药等临床数据(波形数据在另外单独的数据库中),它虽然只是 ICU 数据,但也是目前对全球研究者免费开放的最好的院内治疗及监测的真实世界数据库,资源非常丰富,既可以用传统的统计学方法研究治疗与预后的关系,也可以用数据挖掘和机器学习算法进行相应课题的研究https://mimic.mit.edu/
n 文献应用示例:。

p eICU-CRD数据库

n 数据库简介:eICU合作研究数据库(eICU-CRD)是由飞利浦集团与麻省理工学院计算生理学实验室(LCP )合作创建的大型公共数据库,是从美国境内的大量医院收集的完全独立的数据集。eICU-CRD的发布旨在 MIMIC-Ⅲ成功建立的基础之上,通过从多个中心提供数据来扩大研究范围。该数据库由来自美国 大陆的许多重症监护病房的数据组成,目前的版 本是v2.0,于2018年5月17日发布,涵盖了2014年和2015年入住重症监护病房的200000多例患者的常规数据,收集了大量高质量的临床信息,包括生命体征,护理计划文件,疾病严重程度,诊断信息,治疗信息等。数据的免费可用性将支持许多应用,包括机器学习算法,决策支持工具和临床研究的开发等。网址:https://eicu-crd.mit.edu/
n 文献应用示例

小云话生信
本次数据库分享就到这里了,想做临床公共数据挖掘方向的小伙伴可以尝试使用一下这些数据库哦,有问题也可以在留言区与小记者讨论沟通!【生信日报】可以提供特色数据库构建、免费思路评估、付费生信分析和方案设计以及实验项目实施等服务,对数据库构建和生信分析感兴趣的朋友可以咨询小记者哦!
