欢迎光临散文网 会员登陆 & 注册

使用Gfold进行无重复样本转录组差异表达分析

2022-08-20 14:58 作者:笨笨熊爱吃肉  | 我要投稿

一.软件下载安装

使用工具 Gfold, 下载链接:

https://zhanglab.tongji.edu.cn/softwares/GFOLD/index.html

图片

但是在试用gfold的时候报错了,error while loading shared libraries: libgsl.so.0: cannot open shared object file: No such file or directory

好烦。。。。

find / -name libgsl.so.*

图片

还是有很多libgsl.so.*文件的,只截图了部分结果。

问题解决:

参考网友1的办法,该大神有一些小错误,但我在人家基础上进行的学习改进,在此谢过大神。

图片

然后lib目录下多了一个libgsl.so.0文件

图片

然后再试用一下gfold命令,安装成功:

图片

二.软件使用

1.使用说明可以参照官网上示例。

图片

图片

JOBS:

count: 有时候一个read 可能map到多个基因上,这时这个read就在每个基因上都进行了计数,重复计数了,此外,如果一个基因在多个染色体上或者同一条染色体的不同链上,只有在一个染色体上的同一链的外显子会被归到这个基因上,不在这条染色体和同一链上的会被忽视。


diff:对每个基因,计算GFOLD值和其它统计值。diff接受count结果作为input。有关输入格式的更多信息,请参考count的输出格式。如果你对计数所采用的策略不满意,你可以自己生成基因读取计数。Input中,“GeneSymbol”和“Read Count”很关键。Count结果的第三列(gene length)只会影响RPKM的值,如果缺失这列信息,diff就不会产生RPKM的值。Count结果的第四列对于diff来说没有用处。


2.运行命令行:

/home/lvqiang/miniconda3/envs/gfold/bin/gfold diff -s1 hsv2-12hAS -s2 hsv2-12h-Control -suf .read_cnt -o 12hASVS12Cont.diff


3.输入输出文件要求及结果解读:

参考别人的意见,输入文件共有五列,每一列的命名分别为:GeneSymbolGeneNameReadCountgene exon lengthRPKM,第一列和第二列内容可以一样,第5列我没有填写,会在结果中生成。


输入文件命名如下图,以.read_cnt为后缀,命令行参数设置上只写名字就行,否则会报错提示找不到文件,:

图片

计算过程:

图片

结果:会生成两个文件

图片

diff文件记录了差异表达的结果,diff文件中gfold列信息含义:

图片

三.筛选差异表达基因:

gfold列的值是log2 fold change, >0的为上调基因,<0的为下调基因,=0的为没有差异的基因,可进一步通过脚本命令行筛选上调、下调的基因,因为我这次做的病毒基因的表达和上调,基因数目非常少,肉眼看就知道了。

但是要是做动植物分析时,就得需要命令行了,参考大神2的命令行:

四.参考:

1.链接:http://events.jianshu.io/p/aebd9510f892

2.链接:https://www.jianshu.com/p/25038fa16717

本文使用 文章同步助手 同步


使用Gfold进行无重复样本转录组差异表达分析的评论 (共 条)

分享到微博请遵守国家法律