欢迎光临散文网 会员登陆 & 注册

bioinformation

2023-02-18 22:56 作者:wyxhecy  | 我要投稿

核酸、蛋白质数据库

数据库介绍:https://zhuanlan.zhihu.com/p/386807269

一些名词:一级数据库 二级数据库 参考序列数据库RefSeq

常用基因组数据库    https://www.jianshu.com/p/49f67a413b11

主要用到:

www.ncbi.nlm.nih.gov
https://www.uniprot.org
https://asia.ensembl.org/index.html
http://cbcb.cdutcm.edu.cn/TCMPG

*传统中药植物基因组数据库。*UniProt主要由SIB的Swiss-prot和EBI的TrEMBL两部分构成,两者最大的区别是:UniProtKB/ SWISS-PROT是Reviewed的,而UniProtKB/TrEMBL则是UnReviewed的数据。

数据库格式

常用:Fasta;GBFF(GenBank格式);EMBL格式(百度Fasta条目有说明)

文献检索

常用网站:

http://www.ncbi.nlm.nih.gov/
PubMed
www.webofscience.com
https://www.cnki.net/
sci-hub.wf

字段介绍 https://zhuanlan.zhihu.com/p/597890355

常用字段:Affiliation(可以限定国家、机构)
'[journal']: 限定文献类型,或者其它附加条件(中括号)
bacter*:检索bacter开头的单词
"single cell":只检索这个短语,不会联想
rice AND(OR) grain:逻辑运算符,必须大写

例子:(xxx[Author)) AND (xxx[Text Word]) AND (xxxx[Text Word])(Artemisia annua[Title/Abstract]) AND (development[Title/Abstract])

序列比对

相似性(similarity);同源性(homology):是否具有共同祖先,0/1;一致性(identity)
相关文章
https://zhuanlan.zhihu.com/p/389535844
https://zhuanlan.zhihu.com/p/388632043

http://www.ncbi.nlm.nih.gov/BLAST

结果参数:E值表示随机误差,越小越好(E值,描述给定大小的数据库随机情况下期望得到的匹配数目。是衡量比对结果显著性的一个尺度);Per.Ident即序列一致性;Acc.Len即比对上的序列长度

一些问题:

  1. 对于查询同源性较远的相似序列,为什么蛋白质查询比核酸查询要好?由于密码子的简并性,发生同义突变后蛋白质序列并不会改变;在真核生物中还存在断裂基因,内含子的变异对蛋白质的影响较小。故同源性较远的相似序列,因为经过了长时间的变异,可能存在DNA序列差异较大,而蛋白质较为相似的情况。在这种情况下,使用蛋白质查询便能更好的找到相似序列。具体表现为蛋白质查询能找到更高得分,更高覆盖度且E值更小的结果

  2. blastP中可以勾选PSI-BLAST,寻找远缘相关蛋白

引物设计

https://www.ncbi.nlm.nih.gov/tools/primer-blast/index.cgi

  1. qPCR 定义 用途-> 今天学习设计其引物->  引物设计要求:特异性、保守(这个是拿a的序列在b物种里克隆)

  2. 引物设计原则:Tm(退火温度,两个引物间不能差太大)、碱基组成(4种分布均匀,GC40-60)、小于3bp的自生互补(self complementarity)等

  3. 退火温度不超过72-> 退火时间相对比较久,这个温度对酶的活性不大好

  4. 今天查序列,原来gene和nucleotide是两种。之前查的都是后者

  5. primerParameters里的use my own引物,主要是拿来作为设计好引物之后的校验

进化树

相关概念     https://zhuanlan.zhihu.com/p/411238939
                    https://zhuanlan.zhihu.com/p/141835886

构建方法     https://zhuanlan.zhihu.com/p/4713095171)

序列间相似性程度比较低时,使用距离法(UPGMA和NJ);近缘序列,使用最大简约法(MP);有合适的模型,可以选择最大似然法(ML)

名词:【自展检验】(>70)【p-距离】

蛋白质序列分析与结构预测

  1. https://www.rcsb.org 感受高级检索,id、氨基酸残基序列等 (这个是PDB数据库,蛋白质(三维)结构数据库)

    1. 数据库里面具体的信息。以及蛋白质3d结构预测工具(visualize里)、序列比对工具 (analyze里)

    2. 可以用uniprotein的id来这里搜索相关蛋白

  2. 结构比序列保守,反应出的同源关系更可靠。结构家族分类数据库:SCOP(人工分类,分类级别,类中蛋白的同源关系;前两类结构相似,后两类序列相似)、CATH(ai分类)CATH,可以直接搜索,进行匹配,有点像blast相关文章(https://wenku.baidu.com/view/1bbca7f925fff705cc1755270722192e45365897.html)

  3. https://www.umass.edu/microbio/rasmol/ --> http://polyview.cchmc.org/polyview3d.html

  4. 蛋白结构预测【基于序列预测结构】(一级(https://www.expasy.org/)(可以看等电点protprama之类的信息)、跨膜结构(tmhmm:https://services.healthtech.dtu.dk/service.php?TMHMM-2.0)等

  5. 基于蛋白质序列特征的功能预测(亚细胞定位预测 https://wolfpsort.hgc.jp/ )

  6. https://www.ebi.ac.uk/interpro/ 蛋白质分类家族数据库、基于蛋白质信号的功能预测(信号:序列中的功能位点,像是一些组件以及模块,比如motif、domain等)。所以可以看这个蛋白有哪些结构域还有一个embl下属的smart数据库--还可以分析蛋白质翻译后修饰(糖基化、泛素化等位点)http://smart.embl-heidelberg.de        http://pfam.xfam.org

  7. 低复杂度区域:常见的,没信息量的区域

  8. P167 二级结构预测 http://www.compbio.dundee.ac.uk/jpred/

  9. 三级结构预测 https://swissmodel.expasy.org/

  10. 基于序列相似性的功能预测:搜寻ORF https://www.ncbi.nlm.nih.gov/orffinder/

  11. uniprot包括swiss-prot和trEMBL。trEMBL是前者的先行版,质量不如前者

  12. 信号肽预测 https://services.healthtech.dtu.dk/service.php?SignalP-5.0

  13. 一般分析,信号肽和跨膜结构只考有无

 


bioinformation的评论 (共 条)

分享到微博请遵守国家法律