NGBI 基因数据库介绍
NCBI 基因数据库是一种将基因相关信息集中到单个记录中的资源。许多不同类型的基因特异性数据与记录相关联,包括序列登记、命名法、基因组位置和组织、出版物、基因产物及其属性、表达、相互作用、途径、同源性、变异及其表型后果以及与数据库的有用链接NCBI 内部和外部。
Gene 的内容来自自动数据流和 NCBI 工作人员的管理。起点通常是从公开的、带注释的基因组序列中提取基因特异性信息。根据每个合作数据库提供的信息,该基因被分配一个类别,例如蛋白质编码 RNA、非编码 RNA、假基因、核糖体 RNA 或未知。
NCBI 参考序列数据库或RefSeq 数据库是一个全面、集成、非冗余、注释良好的参考序列集,包括基因组、转录本和蛋白质。
RefSeq
与评论文章类似,RefSeq 是在给定时间跨多个来源整合的信息综合。RefSeqs 为将序列数据与遗传和功能信息结合起来奠定了基础。它们的生成是为了提供多种用途的参考标准,从基因组注释到报告医疗记录中序列变异的位置。
GeneRIF
基因参考功能数据库(GenRIF 数据库),是关于基因功能的简短说明。GeneRIF 提供了一种简单的机制,允许科学家添加基因数据库中描述的基因的功能注释。每个 GeneRIF 都有一个指向科学出版物的 PubMed ID 的指针,该出版物为 GeneRIF 的声明提供证据。
OMIM
NCBI 基因数据库是一个重要的资源,因为它将每个基因的信息集中在一个地方,并提供到其他 NCBI 和相关数据库的链接。此介绍包括对 PubMed 数据库链接的关注。使用任何 NCBI 界面的下拉菜单访问 Gene。
我们看看
CFTR,与囊性纤维化相关的基因。目前,有近3060个个体基因记录引用了CFTR,其中353个来自人类。尽管这些记录是按与搜索词的相关性排序的,但要确保拥有正确的遗传记录,请使用基因的官方符号搜索数据库。
在这96条记录中,第一个是人类基因。由于该记录非常大,请注意右侧的目录以及相关国家医学图书馆数据库和其他遗传资源的附加链接。
第一个摘要部分以人类基因组组织基因命名委员会的公共数据库中定义的官方符号和基因全名开头。然而,正如您从“also know as”列表中看到的那样,并不是每个人都在他们的出版物中使用过该官方符号。该基因编码一种蛋白质,摘要包括有关该蛋白质如何发挥作用以及基因突变的潜在问题的信息。RefSeq 状态为“已审核”。因此,在此记录中,CFTR 基因序列是一个带注释的参考序列,由 NCBI 工作人员策划,具有唯一标识符,可作为医学、功能和比较研究的基线。
基因组背景描述了基因所在的位置。在这种情况下,该基因位于 7 号染色体的 q(或长臂)区域 31.2。有关染色体映射方式的信息,请参阅 Clare O’Connor 的文章。Genome Reference Consortium 于 2014 年 12 月向 GenBank 提交了最新的人类参考基因组组装。由于新数据和更正改变了CFTR 在染色体上的位置,Gene包括当前和过去组装的信息以帮助研究人员。请注意,在当前组装中,CFTR 基因在 7 号染色体上的第 117.4 百万个碱基对之后开始。该图显示了读取基因的方向。请记住,可以从任一方向读取双螺旋结构,并且惯例规定染色体的短臂在顶部或左侧。然后,CFTR 向右读取,但附近的 CTTNBP2 基因向左侧或染色体的短臂读取。
下一部分提供了一种基因浏览器,它提供了大量的信息。单击代表基因的绿线。现在您可以看到绿色的基因信息、蓝色的转录信使RNA 信息以及红色的翻译蛋白质信息。多条蓝线和红线代表剪接变体,这些变体可以产生不同的信使 RNA。
经实验验证的转录本以 N 开头,而以 X 开头的变体代表预测的 mRNA 转录本或转录的蛋白质。现在让我们跳到基因上的特定位置117610510,并放大。请注意,较大的条代表外显子,较小的条代表内含子。 当基因的变异具有临床意义时,研究人员的一个重要概念是临床变异。颜色越深,变异越致病或致命。请注意,这个特殊的变体 rs1800111有一个与之关联的 PubMed 引用。浏览器中的附加信息包括基因序列:SNP,单核苷酸多态性,或个体之间的差异; 以及关于外显子和内含子的信息;所有这些都带有相关数据库的链接。
下一部分,参考书目,不需要介绍。这些是精选的 PubMed 引文,重点关注人类 CFTR 基因。有关其他物种中相似基因的引用,同系物,请单击最后一个链接。如果您需要针对某个基因的特定功能的引文,GeneRIFs 中的Gene References Into Function 部分会很有帮助。一句话取自标题或摘要,简明地描述了该文章中基因的一个或多个功能。这些链接将带您进入 PubMed,就像 PubMed 引用可以带您回到Gene 一样。
我们将在以后的文章中介绍基因记录中的大量附加信息,包括表型、变异和途径、链接到讨论这些相互作用的 PubMed 引文的相互作用、蛋白质信息、参考和相关序列以及资源链接。我们想强调基因本体论部分,该部分总结了该基因已知的功能、过程和组件,并提供了 PubMed 引用。本体论是对存在的事物的研究,基因本体论是描述基因产物特征的术语的受控词汇,并被编译在基因本体论注释数据库中。
基因数据库提供了一个一站式节点来检索与感兴趣的基因相关的所有信息。如果向下滚动到 mRNA 序列部分,您还可以从主要存储 DNA 和 mRNA 序列信息的 Genbank 数据库访问基因序列。