HOMER安装及Motif分析:差异基因共调节转录因子预测
笔记仅方便个人理解,具体内容参考HOMER官网: http://homer.ucsd.edu/homer/
目录:
HOMER功能简介
HOMER软件安装(本文为Mac OS X安装)
Motif分析
结果解读

HOMER功能简介
HOMER (Hypergeometric Optimization of Motif EnRichment)基于Perl和C++编写,主要用于Motif查找及ChIP-Seq分析。HOMER使用ZOOPS评分(0或1发生在每条序列上)与超几何富集计算来确定motif富集,也包含发现de novo motif的算法。
HOMER motif分析主要包括:
启动子motif分析:需下载启动子数据包
基因组motif分析:需下载基因组数据包
使用已知序列(fasta文件)进行motif分析
ChIP分析等
HOMER软件安装
个人感觉,建议以官方文档为基础,勿过度依赖conda!!!
仔细阅读报错信息 + 善用百度/Google可以解决绝大部分问题。
官网安装指导:http://homer.ucsd.edu/homer/introduction/install.html
电脑系统配置要求
硬件要求:Unix-style操作系统(UNIX/LINUX/Mac/Cygwin)
软件要求:
1)HOMER运行所需要的UNIX工具(可使用软件包管理工具安装,我使用的是Homebrew):
gcc
g++
make
zip/unzip
gzip/gunzip
wget
2)NGS工具
samtools
R(同时还需要安装两个R包:DESeq2, edgeR)
注:R包安装涉及太多版本问题及报错情况,具体安装参考其他R包安装网络教程。
安装方法一:官网推荐的手动安装方法
Step 1:下载 “configureHomer.pl” 配置文件:
http://homer.ucsd.edu/homer/configureHomer.pl
并将 “configureHomer.pl” 文件放在想要安装HOMER的目录中
(如 /Users/af/HOMER/)
Step 2:运行该pl脚本,可在Mac终端运行:
cd <path-to-HOMER>
perl configureHomer.pl -install
如:cd /Users/af/HOMER/
perl configureHomer.pl -install
安装成功后会返回一个路径,如:PATH=$PATH:/Users/af/HOMER/bin/ ,记住它。Step 3:修改 .bash_profile路径,具体操作可百度,参考代码:
cd
vim .bash_profile
输入 i ,回车进入编辑模式
将 PATH=$PATH:/Users/af/HOMER/bin/ 复制到文件中(新起一行即可)
按esc退出编辑
输入 :wq 返回
Step 4:source更新一下路径,参考代码:
source .bash_profile
注:如果下一次操作有报错提示找不到homer,重新运行一下该句source命令即可。
此时HOMER软件已安装完成,但还需要下载配置的HOMER数据包。
安装方法二:使用conda安装
conda安装只需一句命令:
conda install -c bioconda homer
但安装后使用which homer找到的路径总是不对,运行也一直报错。根据官方文档重新手动安装后无此问题。如使用conda安装参考其他网络教程。
下载HOMER包
cd <path-to-HOMER>
perl configureHomer.pl -list # 查看可安装的HOMER包
perl configureHomer.pl -install <package name> # 安装某个HOMER包
如:perl configureHomer.pl -install hg38 # 安装hg38版本的人类基因组包
perl configureHomer.pl -install human-p # 安装人类promoter包
Motif分析
HOMER Motif Analysis官网介绍: http://homer.ucsd.edu/homer/motif/index.html
此处仅介绍 findMotifs.pl
准备输入的文件:txt文件即可,第一列需为gene list,HOMER可接受Gene Symbols, Entrez Gene IDs, Unigene IDs, Ensembl Gene IDs等。

运行指令:
findMotifs.pl <inputfile.txt> <promoter set> <output directory> [options]
如:findMotifs.pl DEGs.txt human /Users/af/homerresults/ -start -2000 -end 100 -len 8,10,12 -p 4
常用参数:
-start <#> 与 -end <#> 自定义promoter region,默认-400~100;
-len <#> 自定义motif长度,默认为8,10,12;
-p <#> 自定义CPUs占用数,默认为1;
-S <#> 自定义找到的motif数量,默认为25,一般只建议减少不建议增加;
-bg <file> 可自定义背景序列信息,无定义时HOMER将自动选取。如进行基因组分析,将从整个基因组序列抓取GC含量一致的序列作为背景序列。若进行的是promoter分析,则将所有的promoter作为背景。
结果解读
findMotifs.pl / findMotifsGenome.pl 运行后输出结果文件,主要看:
homerResults.html : 重新预测的motif 的富集结果
homerResults/ directory: 对应homerResults.html中结果
knownResults.html : 已知motif 的富集结果
knownResults/ directory: 对应knownResults.html 中结果

输出结果按照p-value排序,最后一列是一个链接到motif文件的超链接,可以从这个文件中找到包含此motif的其他序列。倒数第二列Best Match/Details 为与de novo motif最匹配的已知motif。Simiar motifs 可链接到与该motif相似的其他motif。
找到的de novo motif质量可能较差的情况:
1)预测的motif在best match的已知motif中(可通过More Iinformation超链接查看)处于边缘位置而非核心位置;
2)低复杂度的motifs和简单重复的motifs。
