欢迎光临散文网 会员登陆 & 注册

生物信息快速入门

2022-04-28 01:24 作者:一只小蛮要  | 我要投稿

看完啦!

老师举例能力贼牛批,通俗易懂,便于俺们小白理解!


干货很多,可以帮助我们尽快对生信分析即将涉及到的内容有大致印象,部分细节自行进行了补充。



1 测序原理

见 notion



2 大片段文库

大片段文库:pairend(文库片段大于1k的片段)

小片段文库:matepair(文库片段小于1k的片段)

  • 无论片段有多大,双末端测序只能测两端很短的部分(小几百bp)


大片段测序

目的:获得reads之间的物理距离关系(在序列拼接和基因组结构变异检测中有重要作用)。

面临问题:

  1. 无法PCR太长的片段
  2. 只测序很短的序列,合成大片段浪费

解决方案:环化处理,进行打断,选取生物素标记片段(包含首尾),接下来的过程与小片段处理完全一致。



3 测序原理


GCbias对测序的影响:

会影响PCR

GC正常范围:35%~65%

解决方案:PCR-free文库(详见notion or 公众号


why不能一直测序下去?

后期错误率显著增加,随着反应进行,酶活性下降,反应条件发生较大改变,更重要的是phasing和pre-phasing,会对整体信号造成干扰。


测序中注意问题:

  1. 必须保证DNA质量,不能降解
  2. 样品量要满足建库要求
  3. 要根据具体样品特点选择合适的建库测序策略
  4. 测序要饱和(详见下节)


# 生信相关文件格式介绍详见notion or 公众号,eg. fastq, sam, bam and so on


4 测序饱和度评估


测序不饱和的影响:

  1. 对于DNA基因组测序来说,影响序列拼接
  2. RNAseq定量不准
  3. 宏基因组不能准确反映物种的组成



5 数据质控

指标:

碱基含量分布(测序数据与基因组GC含量一致)

碱基质量分布(eg. 质量值>Q20为好碱基,Q20百分比指质量值大于等于20的碱基占总碱基的比例。注:Q值是描述单个碱基,Q20百分比是描述整体碱基)


# 生信相关软件使用及其算法详见notion or 公众号


6 测序数据过滤

去除哪些嘞:

  1. 非“基因组”本身序列(adapter接头、测序引物、barcode、index等)
  2. N碱基过多的reads
  3. 低质量的数据(eg. 低于Q20碱基占一条reads总碱基的比率)
  4. duplication(打断不随机造成的)
  5. insertsize偏差过大的reads(可选)


注:

  1. RNAseq与16S测序的duplication并不是打断不随机造成
  2. 去除duplication会造成丰度信息丢失



7 短序列比对

短序列比对就是将这些测序的reads重新定位到基因组上,这个过程也叫做回帖或者mapping。

比对情况:

5 reads比对不到基因组上(0VS0)



8 短序列比对作用

两种情况:

  1. 与自身基因组比对
  2. 计算每个位点覆盖深度
  3. 计算参考序列覆盖比率
  4. 与参考基因组比对
  5. RNA测序计算基因表达量
  6. 宏基因组测序计算不同生物的丰度
  7. 变异检测


作用

  1. 计算reads利用率:reads利用率=比对到目标序列的reads数 / 总reads数
  2. 计算覆盖深度与覆盖比率
  3. 覆盖深度,coverage depth,也称为覆盖度,也叫乘数,是指每个碱基被测序的平均次数,是用来衡量测序量的首要参数。
  4. 覆盖比率,coverage ratio,也称覆盖率,指被测序到的碱基占全基因组大小的比例。覆盖比率可以用来计算亲缘关系。


测序覆盖度与物理覆盖度:

短序列比对软件介绍了很多个,以后可深入学习,不过是不是只需要了解常用的即可嘞~



9 估计insertsize

插入片段insertsize大小,也就是文库片段的长度,同样也是两条测序reads的物理距离。

(insertsize大小包括reads长度)



10 计算RNAseq基因差异表达分析

RPKM:

但是可变剪切reads有时候无法比对回去

So,

现在改用TPM了,相较于前两者计算结果更准确。


比较基因的差异表达:

  1. FC值
  2. FDR校正



11 变异检测

处理有歧义的位点:

  1. 质量值小于Q20
  2. 落在重复区域的位点
  3. 低频的位点
  4. 利用概率模型进行过滤



12 物种组成与丰度计算

16S高变区测序

  1. 数据过滤(注:这里数据过滤不可以去除duplication)
  2. reads拼接为tags
  3. tags聚成OTU(operational taxonomic unit)(可用mothur工具)
  4. OTU进行分类
  5. OTU物种分类
  6. 得到物种组成及丰度



13 短序列比对FAQ

建立索引错误:

  1. 目标序列不能太短,否则无法建立索引
  2. 序列文件中不要有回车符
  3. 选择正确的 bwa index 选项


短序列比对的资源消耗:

使用bam来减少数据存储


如何提高比对效率:

  1. 完善软件算法
  2. 提高计算机硬件资源
  3. 比对前要对数据进行处理
  4. 将数据拆分合并提高比对效率


短序列比对与长序列比对差别:

  1. 长序列是比对多少的问题,短序列是比对有无的问题
  2. 长序列可以允许更多的gap和错配
  3. 亲缘关系太远,无法使用短序列比对,结果不好



---------------------------------------------------------------

我是手动分割线嘿嘿嘿



14 序列拼接简介

序列拼接是生物信息分析的核心

测序reads——序列拼接软件——拼接结果


序列拼接存在问题:

  1. 两条序列的方向
  2. overlap的大小
  3. overlap之间存在错配
  4. 一条序列与多条序列之间存在overlap
  5. 连接之后是否可以继续连接


相关名词:reads, pairend与matepair, insertsize, kmer, contig, scaffold...更多生信相关名词解释见 notion or 公众号



15 序列拼接(未理解透彻,后期需深入了解)


23-pregraph P23 - 00:15


序列拼接可用数据:

  1. 两条pairend关系reads
  2. reads之间具有overlap
  3. reads之间具有pairend关系


序列拼接两种算法:

  1. Overlap-layout-consensus(popular for Sanger reads)
  2. De bruijn graph(popular for illumina and Solid reads)


短序列拼接步骤:

  1. 构图pregraph
  2. 构建contig
  3. 构建scaffold(包括map)
  4. 补洞


详见其他......


序列拼接软件:

SOAPdenovo

velvet

SPAdes

Newbler



16 基因组污染分析

基因组污染特征:

  1. 基因组明显偏大
  2. 序列丰度不同
  3. GC异常


序列唯一性:序列越长唯一性越高


污染鉴定:

  1. 与NCBI比对进行鉴定
  2. 预测16S(或18S)进行鉴定



污染处理:

由于序列之间存在相似性,丰度存在交叉,无法准确区分开污染序列与正常序列。故建议,重新提取样品进行建库测序。



17 RNAseq与meta序列拼接

DNA测序与RNAseq比较:

  1. DNA一般为全基因组测序,而RNA测序的是转录出来的转录本,都是独立断开的片段;
  2. DNA测序一般是均匀测序,基因组上的区域被均匀覆盖,而RNA由于存在表达丰度的差异,所以不均匀;
  3. DNA全基因组测序中存在很多重复序列、干扰序列的拼接,而转录组中这个问题影响会小一些。


RNA序列拼接软件:

Trinity

oases

SOAPdenovo-trans


RNA拼接注意事项:

  1. 拼接结果中获取unigene
  2. 拼接时要去除duplication
  3. 表达定量时不能去除duplication


宏基因组拼接:

宏基因组(metagenome),也称微生物环境基因组或元基因组。



18 序列拼接FAQ

影响拼接的因素:

内因:多倍体,基因组杂合,高度重复,低复杂度,GC偏差等

外因:测序数据量,测序质量,文库大小,kmer大小,基因组自身,拼接软件,阈值设定


如何改善拼接效果:

  1. 覆盖基因组所有位点
  2. 重新调整insertsize
  3. 去除insertsize偏大的pairend reads
  4. 调整kmer大小以及软件选项参数阈值
  5. 混合拼接


不同测序平台之间测序数据混合拼接:


为什么不用短reads直接overlap拼接:

  1. reads中存在错误率
  2. 通过kmer去除包含reads中错误的位点


如何选择kmer大小(软件也不知道哈哈哈哈):

  1. reads准确度越高,选择大kmer较好
  2. reads错误率高,选择小kmer,reads利用率高
  3. 基因组本身特点,重复率,测序深度等因素,都会对kmer取值造成一定影响


为什么kmer只能是奇数:

主要是回文序列的影响,取偶数无法区分互补链和模板链


--------------------------------------------------------

基因组分析开始啦!



19 基因预测

基因预测方法:

  1. 利用软件对物种基因组直接进行预测;
  2. 通过同源序列比对,和已知近源物种基因及进行比对,将同源比对去筛选出来作为基因。


方法比较:

  1. 从头预测:不需要同源参考基因序列直接进行预测,非常方便,适合于新发现的物种,没有很多已知的基因信息。
  2. 基于同源基因的序列比对:找出的基因更加准确,但是如果没有同源序列,或者同源区不含有某个基因的话,就会漏掉一些基因。


------------------------------------------------------------------

后续讲解均为概况,仅适用于粗略了解,可依据自身需求进行深入学习。


20 基因功能注释

ENCODE计划


34-基因功能注释 P34 - 00:03


21 非编码RNA分析


35-非编码RNA分析 P35 - 00:02


22 miRNA分析


36-小RNA分析 P36 - 00:02


23 重复序列分析


37-重复序列分析 P37 - 00:02


24 基因组特殊元件分析

CRISPR,CpG岛,操纵子,基因岛,启动子


38-其余基因组特征分析 P38 - 00:07


25 共线性分析


39-共线性分析 P39 - 00:13



-------------------------------------------------------------------

序列比对、变异检测,需深入学习!



26 变异检测

Denovo测序:如果一个基因组第一次被测序出来,我们一般称之为Denovo测序,主要是需要拼接其基因组。

重测序:已有基因组被发表出来后,重新测序的数据,可以不需要拼接,而直接用测序的reads进行短序列短序列比对分析,称为重测序分析,即文献中经常见到的“re-sequencing”,其实重测序本质就是找变异。


26 SNP检测


45-SNP检测 P45 - 00:04


27 SV检测


46-SV检测 P46 - 00:02


28 CorePanGene集构建


47-CorePangene集构建 P47 - 00:04


29 系统发育树构建


49-系统发育树构建 P49 - 00:09



数据上传!我一定会尽快用到的!




课程涉及知识点如果和自己研究方向相关性较大,建议去看更详细的教程进行针对性学习。


加油!

祝我们早日脱菜!!!







生物信息快速入门的评论 (共 条)

分享到微博请遵守国家法律