文章复现丨惊!2021年5分生信文章,只用20分钟复现!怎么做的?答案藏在这里!
通过点、点、点出图的方式,利用仙桃工具复现最新发表的生信分析套路。今天为大家带来一篇于2021年2月份发表于Aging-UC(IF=4.8)的单基因纯生信文章。

通过对全篇文章内容的解构,Jerry将带领大家逐个步骤的复现全文7张生信图片,其中涵盖2张补充图片。
迫不急待了吧,现在开始吧!
材料与方法部分
数据资料来源

本篇文章的一部分数据来源于TCGA数据库,作者获取了437位肺腺癌患者和54位正常肺组织的表达矩阵(未说明数据格式)和临床数据;
另一部分数据则来源于GEO数据库,纳入了8个GSE数据集,其中GSE72094数据集因涵盖临床预后信息而作为本篇文章的验证数据集。
注:不同版本的TCGA数据,有可能获取的患者的样本例数不一致,因为TCGA数据库一直处于更新过程中。所以看到生信文章中TCGA里同一个癌种的患者样本数不一致,大家也不要奇怪,有可能就是版本不同导致的。
大家做生信分析的时候,尽量选择TCGA数据库中的最新版本的数据进行下载。
图表结果及复现
仙桃学术工具
Human Protein Atlas database
LinkedOmics数据库
TIMER数据库
GEO数据库
TISIDB database
复现任务
Figure1 CLEC10A在肺腺癌与正常组织间的差异表达情况;
Figure2 CLEC10A的表达与肺腺癌患者临床指标的相关性;
Figure3 CLEC10A在肺腺癌组织中的共表达基因(LinkedOmics数据库)
Figure4根据Timer和Estimate算法推断出CLEC10A的表达与肺腺癌组织内免疫细胞浸润的相关性;
Figure5 根据TISIDB数据,推断出CLEC10A的表达水平与肺腺癌肿瘤标本内淋巴细胞浸润、免疫调控因子和炎性趋化因子的相关性;
S.1 根据HPA数据库,证明CLEC10A在肺腺癌组织与正常组织间的表达差异;
S.2 根据Timer数据库,展示CLEC10A与多种肿瘤组织内免疫细胞浸润的相关性;
复现步骤
Fig.1 CLEC10A在肺腺癌与正常组织间的差异表达情况

仙桃学术复现进入仙桃学术生信工具主页,选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)。▼

选择“分析工具”后,在左侧选择“表达差异”下的“非配对样本”。

在数据中选择肿瘤类型“TCGA-LUAD”,在参数中输入分子“CLEC10A”,并根据需要调整图形样式,点击“确认”,即可得到TCGA进行单基因差异分析的图片(图A中的非配对比较的TCGA结果和图D结果)。▼
非配对TCGA的差异分析,并点击“保存结果”按键,稍后可进行拼图

配对的TCGA差异分析,并点击“保存结果”按键

利用仙桃工具,展示CLEC10A在GEO数据集中的肿瘤与非肿瘤标本之间的差异表达
以下利用GSE75037数据集进行单基因差异分析的展示,首先点击数据库检索,键入GSE数据集名称,搜索到目的数据集,点击数据平台“GPL”信息,下载探针和基因名,再点击“数据下载”选项,选中Series Matrix file文件,其内包含了样本的基因表达矩阵和样本的分类。

根据GPL数据集的基因名确认相对应的探针名,单个基因有可能对应多个探针,则均需记录下来;

返回至GSE数据集,根据探针名检索出所有样本相对应的基因表达值;

对三个探针的表达值取相应的平均值,然后根据基础绘图的“配对图”选项下载示例数据,辅助整理正确格式的上传文件。

格式如下

根据癌旁组织与癌组织的类别,将CLEC10A的表达谱数据整理如下图所示:

上传至“配对图”选项下,即可得到如下结果

按照上述类似的操作,汇总7个GEO数据集和TCGA数据库的数据,利用拼图工具,简要汇总如下:

Fig.2 CLEC10A的表达与肺腺癌患者临床指标的相关性

在数据中选择肿瘤类型“TCGA-LUAD”,在参数中输入分子“CLEC10A”,选择临床肿瘤T分级,统计方法选择“One-Way ANOVA”,Y轴坐标标题注释,并根据需要调整图形样式,点击“确认”,但目前还不能将Anova的分析结果标记于图片上。(Fig. 2A)

上接步骤2截图的统计分析结果,如下图所示,其中“保存结果”按钮可以稍后进行图片组图,“方差齐性检验”为统计方法的选择提供依据,One-Way Annova的p值也展示在下述统计表格内。

其余步骤同步骤2,依次选择临床-N.stage、M.stage和UICC-stage,此处不再重复,并根据需要调整图形样式,点击“确认”即可,即可依次得到CLEC10A与临床指标相关性的图像。(Fig. 2B, C, D)

Fig. 2E-F的制作流程
选择临床意义下拉菜单的“单因素多因素COX回归”,再选中LUAD的测序数据,根据本文章的图示,依次选中T、N、M、gender、age和单基因名称(CLEC10A),并注意方框4中的内容,右侧的内容为比较组,而左侧内容为对照组,之后选中OS分析即可。

点击下载CSV表格,表格打开之后的概览如下图所示。


点击基础绘图中的森林图,并下载示例数据,以为数据整理提供参考;


根据上图表格的格式,并结合原文森林图的图示,将4.3步骤获得的数据分布整理为单因素Cox回归和多因素Cox回归的表格。


单击森林图,先后上传整理好的单因素和多因素Cox分析文件,点击确认,即可先后得到相应的单因素和多因素分析的森林图。

利用仙桃工具的拼图工具,得到如下图示:

Fig.3 CLEC10A在肺腺癌组织中的共表达基因(LinkedOmics数据库)

在线搜索LinkedOmics数据库,根据下图可先注册账号,再进行操作,这样获得的结果可保存于对应的账号中;但也可以直接点击作为访问者使用。

按照提示步骤,逐次选择肿瘤类型、RNA-Seq数据类型、特定类型的样本(可选)和基因名称-CLEC10A。

选择目标数据集(同样也是肺腺癌的测序数据)和统计方法(与文献提供的方法相一致),点击提交请求,获得结果。


选中获得的数据集结果,即可在下方看到LinkFinder数据块,可得到图3A、B、C。




选择LinkInterpreter模块,根据文章内容选择GSEA富集分析,分析条件选择默认即可得到图3中的E和F图像。



进入GEPIA 2版本的数据(http://gepia2.cancer-pku.cn/#index),根据下述序号,点击进入“survival map”模块内,将图3B、C中获得的相关下调和下调基因输入3方块中,选择肺癌的TCGA数据集,点击绘图,即可得到图3D的结果。再将下调和上调的survival map图组合在一起即可,此处只展示出部分结果。


Fig.4根据Timer和Estimate算法推断出CLEC10A的表达与肺腺癌组织内免疫细胞浸润的相关性。

进入TIMER version. 1版本,在下方输入框中键入基因名称,cancer Type选中肺腺癌(TCGA的测序数据),免疫浸润为数据库默认的6中免疫细胞,即可一键得到下图所示的图像,点击JPG或PDF下载,此图即为Figure 4A。


Fig4.B图为GSE数据,需自行使用R语言的Timer算法进行计算,得到B图,此处不再演示。
Fig.4 C-F均为ESIMATE算法估算每个样本的免疫评分和间质评分,再将其与患者的预后做关联,目前只能依靠R语言的ESTIMATE算法进行实现。
进入仙球工具的临床意义板块,选择预后分析之KM曲线图,按照下述步骤,即可得到在TCGA-LUAD数据集里CLEC10A与患者预后的相关性。即Fig4. G。


在仙球学术之数据集检索框内键入GSE72094,即可看到相应的“数据下载“”按钮和GPL信息,分别点击数据下载》》series matrix file文件,用以获取CLEC10A的表达谱和生存信息;点击GPL选项,下拉至页面底部,点击view full table,按Ctrl+G在页面内搜索CLEC10A对应的探针号,在下图中可看到有两个探针对应CLEC10A,记录下来,再到series matrix file文件内找到上述两个探针对应的表达值,取其平均值,即为该基因的表达值。



从Series-matrix file文件中提取出CLEC10A对应探针的表达值、患者的生存状态和生存时间数据,按照status、Time、Expression的顺序整理出如下表格。


上传至仙桃工具的生存曲线图,按照如下步骤,上传数据,即可得到Fig.4 H图像;


Fig.5 根据TISIDB数据,推断出CLEC10A的表达水平与肺腺癌肿瘤标本内淋巴细胞浸润、免疫调控因子和炎性趋化因子的相关性

进入TISIDB数据库(http://cis.hku.hk/TISIDB/index.php),在下方gene symbol处键入CLEC10A,点击提交之后,即可获得第二张页面,选择基因名称。


选中Lymphocyte模块,下拉页面即可获得Figure. 5A中的热图,


按下述顺序选择热图旁边的肿瘤类型指标和免疫细胞类型,即可得到Fig. 5A的散点图。其余散点图也是类似操作,此处不再重复。


选中Immunomodulator模块,可在下方2处看到免疫抑制剂、免疫激活剂和MHC分子类型,该三处指标分别对应Fig.5B,C,D的热图。散点图的获取方法与上述3步骤类似,点击右键另存为即可。




选中Chemokine模块,可在下方2处看到炎症因子和受体,该两处指标分别对应Fig.5E和F的热图。散点图的获取方法与上述3步骤类似,点击右键另存为即可。



S.1 根据HPA数据库,证明CLEC10A在肺腺癌组织与正常组织间的表达差异

进入HPA数据库(https://www.proteinatlas.org/),键入CLEC10A基因于搜索框内。

点击Pathology选项进入该基因在组织内表达情况的免疫组化图片;

下拉页面至蛋白表达选项中,选中肺癌即可。

下拉页面至Location处,即可看到作者选取上述免疫组化图片的源材料。

根据作者提供的信息,包括正常组织(2268)和癌症组织(1847),从左至右即为原图片S.1,但作者提供的2268(正常组织)图片并未在数据库内找到,可能是由于数据库更新,而导致的区别。


S.2 根据Timer数据库,展示CLEC10A与多种肿瘤组织内免疫细胞浸润的相关性

上述图像是CLEC10A在Timer数据库中分别选择所有肿瘤之后,拼接所构成的大图,其中免疫细胞的选择为默认的6中免疫细胞,其具体操作方法同本文章的第4部分的第一步骤,将获取的PDF图片在AI软件内拼接即可,此处不再重复演示。

好了 小伙伴们,是不是感受到仙桃工具的强大之处了吗?上述实践证明出没有R语言一样也可以做出媲美R语言的图片,心动不如行动,赶快动手操作起来吧!!