Multi-omics Hammer软件之批量提取基因或转录本序列

前面的推文介绍了一下Multi-omics Hammer软件的Genome_relate工具箱,本篇就接着前面的推文继续介绍如何使用Genome_relate工具箱进行基因或转录本序列的提取。
一 功能开发
基因或转录本序列的提取是生物实验中必不可少的技能。无论是做进化树分析、同源序列查找、引物设计等分析时,均可能需要批量提取基因或者转录本序列。因此,本软件结合这一需求,并在原有基因序列提取的基础上,额外增添了转录本提取的功能,以方便大家使用。
二 软件调用
介绍完上述功能需要解决的问题,下面便介绍如何通过软件完成相关分析。
2.1 我们需要先打开‘Genome_relate’选项,如图1所示。

那么,我们就可以看见我们的Genome_relate对话框了(图2)。这一对话框运算部分提供了两个选项,分别是‘is save’和‘simple alig?’选项。如果复选框勾选了‘simple alig?’选项,用户就可以将数据直接输入到比对文件对话框和背景文件对话框中即可。注意:这两个对话框如果直接将文件拖入,则会直接读取文件的内容,并展示前100行的数据。而结果文件对话框则只会显示文件的路径。因为,已经提供了结果预览部分。最后,最重要的选项就是‘process’选项了,点击后即可直接进行运算。除了上述选项外,本软件的其他界面部分也将以行为主进行逐一介绍。
多选框:可以选择序列长度统计(Count_sequence_length)、序列提取(extract_sequence)、进化树名称修改(ptree_rename)和基因名批量修改(fasta_rename)。
Matching files:需要统计的文件。
Search file:用于检索的文件(文件的内容为需要批量提取的基因或者转录本名称)
Result Preview:结果预览。
Output files: 指定用于输出的文件。

另外,为了方便用户了解这一功能,本软件也提供了示例文件,通过点击图2的‘load test’选项即可加载示例数据。随后,点击‘process’即可得出结果。当然,用户也可以直接将文件拖入进入相应的为对话框(输入文件对话框)。如图3和图4示,用户可以直接将数据框文件和查找文件分别拖入到相应的对话框中,软件也会自动识别并加载数据。需要注意的是,图3中两列是基因名,而另外两列则是转录本名称(基因名-空格-转录本)。

如果想要提取转录本,那么所提供的数据库中需要包含转录本的名称与序列信息。

点击图4的方框5即可运行程序完成序列提取。这里需要提到的是,如果仅仅提供基因名,那么该基因所包含的所有转录本都会提取出来。而如果仅仅包含转录本名称,那么序列提取部分仅为转录本序列。如下图5中方框6所示。

三 惯例小结
除了提供基因或转录本序列提取外,本套件还有其他功能,也将在接下来的推文中一一介绍。如果读者觉得还有什么功能需要实现,也可直接通过公众号留言。不过还是那句话,改进的进度可能要全凭本人时间安排,无法强求(因为主业更重要)。
本公众号开发的相关软件,Multi-omics Hammer软件和Multi-omics Visual软件欢迎大家使用。文末是本公众号在其他平台的账户,也欢迎大家关注并多提意见。
简书:WJ的生信小院
公众号:生信小院
博客园:生信小院
最后,也欢迎各位大佬能够在本平台上:1传播和讲解自己发表的论文;2:发表对某一科研领域的看法;3:想要达成的合作或者相应的招聘信息;4:展示自己以寻找博后工作或者博士就读的机会;5:博导提供博后工作或者博士攻读机会,都可以后台给笔者留言。希望本平台在进行生信知识分享的同时,能够成为生信分析者的交流平台,能够实现相应的利益互补和双赢(不一定能实现,但是梦想总得是有的吧)。
另外,怎么说呢,投币也可,不强求,但奢求。


