【推荐课程】山东大学生物信息学(高清原版课程带全套课件)

听完啦!
实不相瞒,前期俺有一种听评书的感觉哈哈哈哈哈哈!
这个动画制作属实牛批,俺准备偷师了哈哈哈哈!
老师幽默风趣,可以把抽象的东西用通俗易懂的例子进行解释,使复杂的知识简单化。
不过涉及内容较浅,适用于粗略了解生信领域。
生物信息学 - 学习笔记
0 神马是生物信息学
1 生物数据库
人基因组有 3G bp = 3,000,000,000 bp


1.1 PubMed 文献数据库

1.2 一级核酸数据库

1.2.1 INSDC = Genbank + ENA + DDBJ

如何解读?【序列信息注释条目意义】FASTA
eg. GenBank
原核生物核酸序列
真核生物核酸序列mRNA
真核生物核酸序列DNA
1.2.2 基因组数据库:Ensemble

eg. 在基因组里从染色体入手找到DUT基因
1.2.3 微生物宏基因组数据库:JCVI

- 微生物基因组牛批!(HMP)
1.3 二级核酸数据库


1.4 一级蛋白质序列数据库


我们最常用的是UniProtKB/Swiss-Prot。
eg. UniProtKB
1.5 一级蛋白质结构数据库

eg. dUTPase
1.6 二级蛋白质数据库
1.6.1 Pfam

1.6.2 CATH

1.6.3 SCOP2

1.7 专用数据库
1.7.1 KEGG
1.7.2 OMIM
2 序列比较
2.1 what is sequence?
sequence就是个string。
FASTA格式:
第一行:大于号加名称或其他注释
第二行:以后每行60/80/XX个字母
2.2 序列相似性
相似的序列——相似的结构——相似的功能
可预测未知结构和功能的蛋白质的结构和功能
序列一致度与相似度:
一致度(identity):如果两个序列长度相同,那么它们的一致度定义为它们对应位置上相同的残基的数目占总长度的百分比。
相似度(similarity):如果那么它们的相似度定义为它们对应位置上相似的残基与相同的残基的数目和占总长度的百分比。
那么,怎么个样子算相似嘞?
残基两两相似的量化关系被替换记分矩阵所定义。
2.3 替换记分矩阵
substitution matrix:反映残基之间相互替换率的矩阵,它描述了残基两两相似的量化关系。分为DNA替换记分矩阵和蛋白质替换记分矩阵。
3种常见DNA序列的替换记分矩阵
- 等价矩阵(unitary matrix):最简单的替换记分矩阵,其中,相同核苷酸之间的匹配得分为1,不同核苷酸间的替换得分为0。由于不含有碱基的理化信息和不区别对待不同的替换,在实际的序列比较中较少使用。
- 转换-颠换矩阵(transition-transversion matrix):核酸的碱基按照环结构特征被划分为两类,一类是嘌呤,有两个环;另一类是嘧啶,只有一个环。如果DNA碱基的替换保持环数不变,则为转换;如果环数发生变化,则成为颠换。在进化过程中,转换发生的频率远比颠换高。为了反映这一情况,通常该矩阵中转换的得分为-1,而颠换的得分为-5。
- BLAST矩阵:经过大量实际对比发现,如果使被比对的两个核苷酸相同时得分为+5,反之为-4,则比对效果较好。这个矩阵广泛地被DNA序列比较所采用。
3种常见蛋白质序列的替换记分矩阵
- 等价矩阵(unitary matrix):与DNA等价矩阵道理相同,相同氨基酸之间的匹配得分为1。不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。
- PAM矩阵(Dayhoff突变数据矩阵):PAM矩阵基于进化原理。如果两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比较中最广泛使用记分方法之一,基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得到)。PAM-1自乘n次,可以得到PAM-n,即发生了更多次突变。
- BLOSUM矩阵(blocks substitution matrix):BLOSUM矩阵是通过关系较远的序列来获得矩阵元素的。PAM-1矩阵的产生是基于相似度较高(>85%)的序列比对,那些进化距离较远的矩阵,如PAM-250是通过PAM-1自乘得到的。即,BLOSUM矩阵的相似度是根据真实数据产生的,而PAM矩阵是通过矩阵自乘外推来的。和PAM矩阵一样,BLOSUM矩阵也有不同编号,如BLOSUM-80、BLOSUM-62。80代表该矩阵是由一致度≧80%的序列计算而来。同理,62指该矩阵由一制度≧62%的序列计算而来。
选PAM-?还是BLOSUM-?


对于关系较远的序列之间的比较,由于PAM-250是推算而来的,所以其准确度受到一定限制,BLOSUM-45更具优势。对于关系较近的序列之间的比较,用PAM或BLOSUM矩阵做出的比对结果,差别不大。
最常用:BLOSUM-62
其他2种蛋白质序列的替换记分矩阵
- 遗传密码矩阵(genetic code matrix, GCM):遗传密码矩阵通过计算一个氨基酸转换成另一个氨基酸所需的密码子变化的数目而得到,矩阵的值对应为此付出的代价。如果变化一个碱基,就可以使一个氨基酸的密码子转换为另一个氨基酸的密码子,则这两个氨基酸的替换代价为1;如果需要两个碱基的改变,则替换代价为2;如果三个密码子是都要改变则代价为3。 遗传密码矩阵常用于进化距离的计算,其优点是计算结果可以直接用于绘制进化树,但是它在蛋白质序列比对(尤其是相似程度很低的蛋白质序列比对中)很少被使用。
- 疏水矩阵:根据氨基酸残基替换前后疏水性的变化而得到得分矩阵。若一次氨基酸替换疏水特性不发生太大的变化,则这种替换得分高,否则替换得分低。该矩阵物理意义明确,有一定的理化性质依据,适用于偏重蛋白质功能方面的序列比对。
那么问题来了,如果两个序列的长度不同,该怎么计算一致度与相似度呢?
且听后后后面详解!
2.4 双序列比对
比较两个序列的方法:打点法,序列比对法
2.4.1 打点法
最简单的比较两个序列的方法,理论上可以用纸笔来完成。俗称,有手就行。
连续的对角线及对角线的平行线代表两条序列中相同的区域。

可以用一条序列自己对自己打点,从而可以发现序列中重复的片段。这样的打点矩阵必然是对称的,并且有一条主对角线在横向或纵向上,与主对角线平行的短平行线所对应的序列片段就重复的部分。

用这种方法,我们可以发现串联重复序列(tandem repeat)。
短串联重复序列(short tandem repeat, STR)也叫做微卫星DNA,是一类广泛存在于真核生物基因组中的DNA串联重复序列。它有2-6bp的核心序列组成,重复次数通常在15-30次。STR具有高度多态性,即存在重复次数的个体间差异,而且这种差异在基因遗传过程中一般遵循孟德尔共显性遗传规律,所以它被广泛用于法医学个体识别、亲子鉴定等领域。
实际操作方法:eg. Dotlet——滑窗
2.4.2 序列比对法
序列比对(alignment),也叫对位排列、联配、对齐等。运用特定的算法找出两个或多个序列之间产生最大相似度得分的空格插入和序列排列方案。

全局比对(global alignment):
Needleman-Wunsch算法
局部比对(local alignment):
Smith-Waterman算法
哎嘿!之前的问题回来咯!
如果两个序列的长度不同,该怎么计算一致度与相似度嘞?
无论两个序列长度是否相同,都要先做双序列全局比对,然后根据比对结果及比对长度计算它们的一致性和相似度。
2.5 在线双序列比对工具
EMBL全局双序列比对工具
2.6 BLAST搜索

分类:
BLAST实际上是综合在一起的一组工具的统称,它不仅可以用于直接对蛋白质序列数据库和核酸序列数据库进行搜索,而且可以将待搜索核酸序列翻译成蛋白质序列后再进行搜索,或反之,以提高搜索效率。


根据搜索算法分:标准BLAST,PSI-BLAST,PHI-BLAST等。
eg. NCBI-BLAST
PSI BLAST(position-specific iterated BLAST, 位点特异性迭代BLAST)

PHI-BLAST(pattern-hit initiated BLAST, 模式识别BLAST)


其他BLAST——Smart BLAST
各种免费搜索工具
Blast off!
2.7 多序列比对
multiple alignment,对两条以上的生物序列进行全局比对。
用途:
- 确认:一个未知的序列是否属于某个家族。
- 建立:系统发生树,查看物种间或者序列间的关系。
- 模式识别:一些特别保守的序列片段往往对应重要的功能区域,通过多序列比对可以找到这些保守片段。
- 已知推未知:把已知有特殊功能的序列片段通过多序列比对做成模型,然后根据该模型推测未知的序列片段是否也具有该功能。
- 其他:预测蛋白质/RNA二级结构
- 等等......
算法:

要求:
- 太多的序列受不了。一般10~15条序列,最好别超过50条。
- 关系太远的序列受不了。两两之间序列相似度低于30%的一组序列,做多序列比对会有麻烦。
- 关系太近的序列受不了。两两之间序列相似度大于90%的序列,有再多条都等于只有一条。
- 短序列受不了。多序列比对支持一组差不多长的序列,个别很短的序列属于捣乱分子。
- 有重复域的序列受不了。如果序列里包含重复域,大多数序列比对的程序都会出错,甚至崩溃。
起名建议:

2.8 在线多序列比对工具
EMBL多序列比对工具
特定工具可以进行格式转换得到我们所需要的输出格式。
2.9 多序列比对美化工具
Jalview,还有其他......
2.10 寻找保守区域
序列标示图(sequence logo)—— WebLogo 3
虚列基序(sequence motif)—— MEME
PRINTS指纹图谱数据库
3 分子进化与系统发生
3.1 基本概念
3.1.1 分子进化
利用软件,从分子水平上(DNA、RNA、蛋白质序列)基于某一个特定的分子在不同物种中的序列差异来构建各种生物间的系统发生树,其准确度依赖于软件的优劣及参数的设置。
基本假设:(1)DNA、RNA或蛋白质序列包含了物种的所有进化史信息;(2)分子钟理论:一个特定蛋白质的进化变异的速度在不同物种中是基本恒定的。即两个蛋白质的序列越相近,它们距离共同祖先就越近。
3.1.2 不同的同源
同源(Homologs):来源于共同祖先的相似的序列为同源序列。相似序列并不一定是同源序列。
- 直系同源(orthologs):来自于不同物种的由垂直家系(物种形成)进化而来的基因,并且典型地保留了与原始基因相同的功能。
- 旁系同源(paralogs):在同一物种中的来源于基因复制的基因,可能会进化出新的原来有关的功能。
- 异同源(Xenologs):通过水平基因转移,来源于共生或病毒侵染所产生的相似基因。

相似度与同源性:
相似度——可量化
同源性——不可量化
3.1.3 生命网
大规模基因组测序产生大量物种的基因组信息,表明基因在物种之间转换,形成一个杂乱无章的“生命网”。
水平基因转移(horizontal gene transfer):是指生物将遗传物质传递给其他细胞而非其子代细胞的过程。
3.2 系统发生树
构建系统发生树(phylogenetic tree)的意义:
- 对于一个未知的基因或蛋白质序列,确定其亲缘关系最近的物种;
- 预测一个新发现的基因或蛋白质的功能;
- 有助于预测一个分子功能的走势;
- 追溯一个基因的起源。



3.3 系统发生树的构建



用什么序列建树嘞?DNA还是蛋白质?
- 如果DNA序列两两间的一致度大于70%,就选用DNA序列。
- 如果DNA序列两两间一致度小于70%的话,DNA序列和蛋白质序列都可以用。
3.4 MEGA 7 构建NJ树
4 蛋白质结构预测与分析
4.1 蛋白质的二级结构
DSSP(definition of secondary structure of proteins),即,蛋白质的二级结构定义词典。DSSP并不预测二级结构,而是根据二级结构的定义对已经测定三级结构的蛋白质的各个位置指认出事哪种二级结构。
如何从PDB获取二级结构信息?
软件预测二级结构
4.2 蛋白质的三级结构
获取
4.3 三级结构可视化软件VMD
4.4 计算方法预测三级结构
4.4.1 同源建模法(homolog modeling)
SWISS-MODEL
原理:相似的氨基酸序列对应着相似的蛋白质结构。
注:目标序列与模板序列间的一致度要≧30%。
BTW:会有一些特例情况,虽然序列一致度达到很高水平,但是结构却并相同。
4.4.2 穿线法(threading)
I-TASSER
原理:不相似的氨基酸序列也可以对应着相似的蛋白质结构。
Zhang Lab!牛批!
4.4.3 从头及算法(ab initio)
QUARK
原理:1973年《Science》Anfinsen:蛋白质的三维结构决定于自身氨基酸序列,并且处于最低自由能状态。
Zhang Lab!牛批!
4.4.4 综合法(ensemble method)
ROBETTA
原理:综合了同源建模法、穿线法和从头计算法等多种方法,将氨基酸序列分段,情况不同的片段采用不同的方法。

4.4.5 模型质量评估
模型质量评估软件(model quality assessment programs, MQAPs)
对于通过计算方法获得的模型,必须进行必要的模型质量评估,以确定模型的可靠性。模型质量评估软件并不比较预测模型跟真实结构的差别大小,而是从空间几何学、立体化学和能量分布三方面评估一个模型的自身合理性。

4.5 三级结构的比对
结构比对就是对蛋白质三维空间结构的相似性进行比较,它是蛋白质结构分析的重要手段之一。
- 可用于探索蛋白质进化及同源关系;
- 改进序列比对的精度;
- 改进蛋白质结构预测工具;
- 为蛋白质结构分类提供依据;
- 帮助了解蛋白质功能。
结果比对的结果可以用很多种参数来衡量,最常用的是root mean squared deviations(RMSD)。如果两个结构的RMSD为0埃,那么它们结构一致,可以完全重合;一般来说RMSD小鱼3埃时,认为两个结构相似。
eg. SuperPose, SPDBV
4.6 蛋白质分子表面性质

eg. VMD创建psf文件
4.7 四级结构的获取
4.8 蛋白质-蛋白质 分子对接
eg. ZDOCK,PDBePISA
4.9 蛋白质-小分子 分子对接
eg. AutoDock4
4.10 虚拟筛选 & 反向对接
虚拟筛选(virtual screening, VS):也称计算机筛选,即在进行生物活性筛选之前,在计算机上对化合物分子进行预筛选,以降低实际筛选化合物的数目,同时提高先导化合物的发现效率。
eg. ZINC数据库,AutoDock4,Vina
反向对接(target fishing):是通过把一个小分子与多个靶标蛋白进行分子对接,寻找潜在的靶标。
eg. scPDB数据库
4.11 分子动力学模拟
molecular dynamic simulation, MDS
用计算机来模拟原子及分子的物理运动过程。
重头戏来啦!!!
5 基因组学与测序技术
嗯......似乎这一章主要是科普......
可以忽略或跳过,当然不了解的话听一下还是超有用的,也可以选择去听关于测序技术介绍更详细的课程。
仅代表本人观点,不具普适性!
6 贝叶斯和二元预测
贝叶斯:两个事件互为条件时发生概率的问题。
讲的比较简单,深入学习需要其他课程。
二元预测
7 基本序列算法
序列算法:为研究生物序列而开发出的计算复杂度尽可能低的算法。
eg. 如何从序列中快速准备地找到重复序列
生物序列:包括核酸序列、蛋白质序列或其他由生物问题转化而来的数字串或字符串。
构建后缀树:
使用后缀树:
最高分子序列:
8 数据挖掘
8.1 数据库系统
8.2 机器学习
主要是设计和分析一些让计算机可以自动“学习“”的算法。这些算法是一类从数据中获得规律,并利用这些规律对未知数据进行预测的算法。(用向量描述物体)
8.2.1 机器学习常见任务
分类(classification):有背景知识,根据背景知识判断新物体属于哪一类。
聚类(clustering):没有背景知识,对于一组新物体,通过判断其属性,将所有新物体分组。
回归(regression):有背景知识,根据背景知识推导出x1, x2, ... ,xn与y之间的定量关系,并据此计算新物体的y。
8.2.1 机器学习常见算法
最近邻居(neighbor joining):将已知物体根据自身的特征属性标记在坐标系中,再将未知物体根据其自身的特征属性也标记在坐标系中。新物体里哪个已知物体最近,新物体就是哪种已知物体。
贝叶斯(bayes theorem):见前第6章节
支持向量机(support vector machine):支持向量机是一个二类分类模型,但也可以扩展为多类分类。其基于间隔最大化的特点可以使它更加灵活地处理线性或非线性的分类问题。
决策树(decision tree):决策树是一个预测模型,它表示对象属性和对象值之间的一种映射,树中的每一个节点表示对象属性的判断条件,其分支表示符合节点条件的对象。树的叶子节点表示对象所属的预测结果。
人工神经网络、遗传算法、其他......
数据挖掘软件:WEKA(怀卡托智能分析环境)
后续姐姐就不看啦哈哈哈哈哈哈哈哈哈哈......