生物信息快速入门

看完啦!
老师举例能力贼牛批,通俗易懂,便于俺们小白理解!
干货很多,可以帮助我们尽快对生信分析即将涉及到的内容有大致印象,部分细节自行进行了补充。
1 测序原理
见 notion
2 大片段文库
大片段文库:pairend(文库片段大于1k的片段)
小片段文库:matepair(文库片段小于1k的片段)
- 无论片段有多大,双末端测序只能测两端很短的部分(小几百bp)
大片段测序
目的:获得reads之间的物理距离关系(在序列拼接和基因组结构变异检测中有重要作用)。
面临问题:
- 无法PCR太长的片段
- 只测序很短的序列,合成大片段浪费
解决方案:环化处理,进行打断,选取生物素标记片段(包含首尾),接下来的过程与小片段处理完全一致。
3 测序原理

GCbias对测序的影响:
会影响PCR
GC正常范围:35%~65%
解决方案:PCR-free文库(详见notion or 公众号)
why不能一直测序下去?
后期错误率显著增加,随着反应进行,酶活性下降,反应条件发生较大改变,更重要的是phasing和pre-phasing,会对整体信号造成干扰。
测序中注意问题:
- 必须保证DNA质量,不能降解
- 样品量要满足建库要求
- 要根据具体样品特点选择合适的建库测序策略
- 测序要饱和(详见下节)
# 生信相关文件格式介绍详见notion or 公众号,eg. fastq, sam, bam and so on
4 测序饱和度评估

测序不饱和的影响:
- 对于DNA基因组测序来说,影响序列拼接
- RNAseq定量不准
- 宏基因组不能准确反映物种的组成
5 数据质控
指标:
碱基含量分布(测序数据与基因组GC含量一致)
碱基质量分布(eg. 质量值>Q20为好碱基,Q20百分比指质量值大于等于20的碱基占总碱基的比例。注:Q值是描述单个碱基,Q20百分比是描述整体碱基)
# 生信相关软件使用及其算法详见notion or 公众号
6 测序数据过滤
去除哪些嘞:
- 非“基因组”本身序列(adapter接头、测序引物、barcode、index等)
- N碱基过多的reads
- 低质量的数据(eg. 低于Q20碱基占一条reads总碱基的比率)
- duplication(打断不随机造成的)
- insertsize偏差过大的reads(可选)
注:
- RNAseq与16S测序的duplication并不是打断不随机造成
- 去除duplication会造成丰度信息丢失
7 短序列比对
短序列比对就是将这些测序的reads重新定位到基因组上,这个过程也叫做回帖或者mapping。

比对情况:

5 reads比对不到基因组上(0VS0)
8 短序列比对作用
两种情况:
- 与自身基因组比对
- 计算每个位点覆盖深度
- 计算参考序列覆盖比率
- 与参考基因组比对
- RNA测序计算基因表达量
- 宏基因组测序计算不同生物的丰度
- 变异检测
作用
- 计算reads利用率:reads利用率=比对到目标序列的reads数 / 总reads数
- 计算覆盖深度与覆盖比率
- 覆盖深度,coverage depth,也称为覆盖度,也叫乘数,是指每个碱基被测序的平均次数,是用来衡量测序量的首要参数。
- 覆盖比率,coverage ratio,也称覆盖率,指被测序到的碱基占全基因组大小的比例。覆盖比率可以用来计算亲缘关系。
测序覆盖度与物理覆盖度:

短序列比对软件介绍了很多个,以后可深入学习,不过是不是只需要了解常用的即可嘞~

9 估计insertsize
插入片段insertsize大小,也就是文库片段的长度,同样也是两条测序reads的物理距离。
(insertsize大小包括reads长度)
10 计算RNAseq基因差异表达分析
RPKM:

但是可变剪切reads有时候无法比对回去
So,

现在改用TPM了,相较于前两者计算结果更准确。
比较基因的差异表达:
- FC值
- FDR校正
11 变异检测
处理有歧义的位点:
- 质量值小于Q20
- 落在重复区域的位点
- 低频的位点
- 利用概率模型进行过滤
12 物种组成与丰度计算
16S高变区测序

- 数据过滤(注:这里数据过滤不可以去除duplication)
- reads拼接为tags
- tags聚成OTU(operational taxonomic unit)(可用mothur工具)
- OTU进行分类
- OTU物种分类
- 得到物种组成及丰度
13 短序列比对FAQ
建立索引错误:
- 目标序列不能太短,否则无法建立索引
- 序列文件中不要有回车符
- 选择正确的 bwa index 选项
短序列比对的资源消耗:
使用bam来减少数据存储
如何提高比对效率:
- 完善软件算法
- 提高计算机硬件资源
- 比对前要对数据进行处理
- 将数据拆分合并提高比对效率
短序列比对与长序列比对差别:
- 长序列是比对多少的问题,短序列是比对有无的问题
- 长序列可以允许更多的gap和错配
- 亲缘关系太远,无法使用短序列比对,结果不好
---------------------------------------------------------------
我是手动分割线嘿嘿嘿
14 序列拼接简介
序列拼接是生物信息分析的核心

测序reads——序列拼接软件——拼接结果
序列拼接存在问题:
- 两条序列的方向
- overlap的大小
- overlap之间存在错配
- 一条序列与多条序列之间存在overlap
- 连接之后是否可以继续连接
相关名词:reads, pairend与matepair, insertsize, kmer, contig, scaffold...更多生信相关名词解释见 notion or 公众号
15 序列拼接(未理解透彻,后期需深入了解)
序列拼接可用数据:
- 两条pairend关系reads
- reads之间具有overlap
- reads之间具有pairend关系
序列拼接两种算法:
- Overlap-layout-consensus(popular for Sanger reads)
- De bruijn graph(popular for illumina and Solid reads)
短序列拼接步骤:
- 构图pregraph
- 构建contig
- 构建scaffold(包括map)
- 补洞
详见其他......
序列拼接软件:
SOAPdenovo

velvet

SPAdes

Newbler

16 基因组污染分析

基因组污染特征:
- 基因组明显偏大
- 序列丰度不同
- GC异常
序列唯一性:序列越长唯一性越高
污染鉴定:
- 与NCBI比对进行鉴定
- 预测16S(或18S)进行鉴定
污染处理:
由于序列之间存在相似性,丰度存在交叉,无法准确区分开污染序列与正常序列。故建议,重新提取样品进行建库测序。
17 RNAseq与meta序列拼接
DNA测序与RNAseq比较:
- DNA一般为全基因组测序,而RNA测序的是转录出来的转录本,都是独立断开的片段;
- DNA测序一般是均匀测序,基因组上的区域被均匀覆盖,而RNA由于存在表达丰度的差异,所以不均匀;
- DNA全基因组测序中存在很多重复序列、干扰序列的拼接,而转录组中这个问题影响会小一些。
RNA序列拼接软件:
Trinity

oases
SOAPdenovo-trans
RNA拼接注意事项:
- 拼接结果中获取unigene
- 拼接时要去除duplication
- 表达定量时不能去除duplication
宏基因组拼接:
宏基因组(metagenome),也称微生物环境基因组或元基因组。
18 序列拼接FAQ
影响拼接的因素:
内因:多倍体,基因组杂合,高度重复,低复杂度,GC偏差等
外因:测序数据量,测序质量,文库大小,kmer大小,基因组自身,拼接软件,阈值设定
如何改善拼接效果:
- 覆盖基因组所有位点
- 重新调整insertsize
- 去除insertsize偏大的pairend reads
- 调整kmer大小以及软件选项参数阈值
- 混合拼接
不同测序平台之间测序数据混合拼接:

为什么不用短reads直接overlap拼接:
- reads中存在错误率
- 通过kmer去除包含reads中错误的位点
如何选择kmer大小(软件也不知道哈哈哈哈):
- reads准确度越高,选择大kmer较好
- reads错误率高,选择小kmer,reads利用率高
- 基因组本身特点,重复率,测序深度等因素,都会对kmer取值造成一定影响
为什么kmer只能是奇数:
主要是回文序列的影响,取偶数无法区分互补链和模板链
--------------------------------------------------------
基因组分析开始啦!
19 基因预测
基因预测方法:
- 利用软件对物种基因组直接进行预测;
- 通过同源序列比对,和已知近源物种基因及进行比对,将同源比对去筛选出来作为基因。
方法比较:
- 从头预测:不需要同源参考基因序列直接进行预测,非常方便,适合于新发现的物种,没有很多已知的基因信息。
- 基于同源基因的序列比对:找出的基因更加准确,但是如果没有同源序列,或者同源区不含有某个基因的话,就会漏掉一些基因。
------------------------------------------------------------------
后续讲解均为概况,仅适用于粗略了解,可依据自身需求进行深入学习。
20 基因功能注释
ENCODE计划
21 非编码RNA分析
22 miRNA分析
23 重复序列分析
24 基因组特殊元件分析
CRISPR,CpG岛,操纵子,基因岛,启动子
25 共线性分析
-------------------------------------------------------------------
序列比对、变异检测,需深入学习!
26 变异检测
Denovo测序:如果一个基因组第一次被测序出来,我们一般称之为Denovo测序,主要是需要拼接其基因组。
重测序:已有基因组被发表出来后,重新测序的数据,可以不需要拼接,而直接用测序的reads进行短序列短序列比对分析,称为重测序分析,即文献中经常见到的“re-sequencing”,其实重测序本质就是找变异。
26 SNP检测
27 SV检测
28 CorePanGene集构建

29 系统发育树构建
数据上传!我一定会尽快用到的!
课程涉及知识点如果和自己研究方向相关性较大,建议去看更详细的教程进行针对性学习。
加油!
祝我们早日脱菜!!!