Peak注释?HOMER来帮你!
尔云间一个专门做科研的团队
小果 生信果
生信人R语言学习必备
立刻拥有一个Rstudio账号
开启升级模式吧
(56线程,256G内存,个人存储1T)

不知道小伙伴们是否理解Peak的含义呢?
今天小果就带大家理解一下ATAC-seq中的peak。首先先介绍一下ATAC-seq:ATAC-seq是一种测量染色质可及性的技术,利用转座酶Tn5在开放染色质区域切割DNA并插入测序接头,从而可以通过高通量测序检测到哪些区域是染色质开放的。那么ATAC-seq中的peak是指在某一位置或区域,测序信号达到最大值的现象,通常反映了某种基因调控元件(如启动子、增强子等)或转录因子结合位点的存在。ATAC-seq的peak分析可以帮助我们发现不同细胞类型或状态下,染色质可及性的变化,以及与之相关的转录调控机制。
例如下图:

图中的一个个突起的小山峰就是我们今天的主角peak了。那peak怎么得到呢?又为什么要去注释呢?小伙伴们是不是有点晕呢?哈哈哈不要着急,且听小果细细道来。

首先我们的ATAC-seq的测序数据row data经过清理之后得到clean data,然后对clean data比对到基因组之后得到bam文件,经过排序,标记单端比对(双端测序),去除PCR重复等过程就会得到最终的final bam文件,然后就可以采用MACS2 软件来得到peak啦
那么为什么要对peak进行注释呢?Peak的注释是将peak与基因组上的已知元件(如基因、转录起始位点、启动子、增强子等)进行比较和对应,从而推断peak的功能和作用对象123。Peak的注释可以帮助我们理解peak在基因调控网络中的角色,发现与peak相关的基因和转录因子,以及探索不同细胞类型或状态下,peak的差异和变化。换句话说是因为单纯的peak只是一些冰冷的数据,只有通过注释,才能将peak匹配到一些基因元件上。

下面小果讲一下怎么用HOMER软件去注释peak。
HOMER软件是一种用于分析和注释基因组上的peak的工具,主要用于ChIP-seq,ATAC-seq数据的处理。HOMER软件可以提供以下功能:
1. 寻找和注释与转录因子或组蛋白修饰相关的peak
2. 比较不同样本或条件下的peak差异
3. 识别和分析转录因子结合位点的motif
4. 评估peak在基因表达调控中的作用
5. 可视化peak在基因组上的分布和特征
首先软件的安装:我们果断选择conda:
conda install -c bioconda homer
安装完HOMER之后使用configureHomer.pl完成HOMER软件的配置
如果是人类和小鼠等的数据就直接可以用configureHomer.pl来下载相应的参考基因组
以人的参考基因组为例:
如果是自定义HOMER数据的话需要参考基因组的fasta文件和gtf文件,使用loadGenome.pl命令来自定义HOMER(需要HOMER版本4.4以上)
接下来就是peak的注释啦,peak的注释需要用到annotatePeaks.pl 命令,输入文件可以是MACS2软件callpeak的bed文件(可以直接使用)或者是HOMER软件指定的peak文件格式。peak文件格式:使用Tab分隔,共五列,分别是 peak ID , chr , start , end ,strand
小果的代码如下:
结果会生成一个xlsx文件,里面是注释的结果信息

今天HOMER注释peak的学习就到这里啦,感兴趣的小伙伴可以找小果讨论哦,我们明天见咯~

“生信果”,生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器、生物信息学的教程,以及基于R的分析和可视化等原创内容,一起见证小白和大佬的成长。