欢迎光临散文网 会员登陆 & 注册

尔云间生信代码|基因组学基因名称修正分析

2022-09-27 14:10 作者:尔云间  | 我要投稿


做基因组学分析时发现,部分基因名随着数据库的不断变化,被赋予新的名字或别名。另一方面, EXCEL是常用的查看表格的工具,提供了很好的数据筛选、绘图等功能,不少基因表达数据也会在EXCEL中打开查看、筛选和排序,但是EXCEL也会出现比较尴尬的事情,部分基因名会自动转换为日期或浮点。生信分析中经常会做的根据基因名字提取序列、表达量和注释,都会受到这些名字转换的影响。更麻烦的是,一旦被自动转换,再去改成文本格式是无法恢复到原来的文本的,这就会导致大量数据的丢失。因此开发了一款可以批量修正基因组学中基因名称的软件。

比如下表所示以月份开头的基因名字都不可逆的转换为了日期

人类基因的命名主要包括基因名称和基因符号等内容,绝大多数基因的命名,由国际人类基因命名委员会(HGNC)完成。本软件收集整理识别数据库中过时的HGNC人类基因符号,或可能已被Excel或其他电子表格修改过的基因,然后整理出这些基因名称对应的正确的基因名称。首先用户提供基因列表,根据输入基因ID,检索这些被修改过的基因和其正确的基因信息,通过匹配后能够自动检索与其输入基因列表对应的经过修正的基因。


使用方法:

Rscript  CheckGene.R -querylist=querylist.txt

参数说明:

USAGE:

CheckGene.R  -querylist=<querylist> PARAMETERS:

-querylist  the query genes list ,input txt format and filenames.  

操作步骤:

1、打开命令行界面,输入“Rscript  CheckGene.R”调阅帮助文档,确定该程序所需的输入文件。

2、用户根据帮助文档中的参数说明内容,对参数进行设置。这里,必须输入参数有1个,分别是-querylist,用户提供基因列表

3、完成参数提交后,按下回车键,整个程序即正式开始进入执行。每步执行内容都会给出提示。程序执行完毕后,界面会显示”Program execution is completed<span data-raw-text="" "="" data-textnode-index-1664258133904="108" data-index-1664258133904="1063" class="character" style="margin: 0px; padding: 0px;">"结束语。


结果展示:

1.result.

 csv

注:检索出来的修正基因信息,x:输入基因symbol;Approved:输入基因是否为现在官方推荐的,FALSE为不推荐,TRUE为推荐 ;Suggested.Symbol:修正后建议使用的基因symbol 

同时可以看出使用Excel软件打开,名称再次发生了修改,对于这些容易发生改变的基因名称,一定多检查结果是否前后一致


特别说明:本代码经申请软件著作权,仅转让使用权,不转让所有权

如需代码及示例数据等文件,请扫码聊天框回复 “代码”领取!


写在文末:


如果您近期想做生信方面的文章而苦于没有思路,或者不知道如何来入手生信分析,或者兑具体的某一个图有作图需求,都可以扫码咨询小云,我们有专业的技术团队,生信热点思路设计、生信分析、热点方向生信挖掘等,如有需要,可扫码下方二维码了解详情: 



尔云间生信代码|基因组学基因名称修正分析的评论 (共 条)

分享到微博请遵守国家法律