【普鲸甲基化小讲堂】第6讲 - 5mC与CpG岛
在第三讲中我们提到过,我们以后的小讲堂只关注胞嘧啶甲基化(5mC),提到这个,大家耳熟能详的一个就是“CpG”了,这里是指胞嘧啶C和鸟苷酸G形成的二核苷酸片段,字母p代表连接两个核苷酸分子的磷酸键。CpG二核苷酸是最为人们所熟知的甲基化位点。
不只是CpG
但是,人体内所有的甲基化模式都是CpG二核苷酸么?还真不是!
当胞嘧啶C后面跟的是其它核苷酸比如另一个C或者腺嘌呤A,胸腺嘧啶T的时候,这个胞嘧啶C依然是可以被甲基化的。这种模式被称为CHG或者CHH,其中H是简并碱基的意思,它代表除了G以外A\T\C的任意一种核苷酸。CpG、CHG和CHH是甲基化的三种模式。在植物中,这三种模式是普遍存在的。

而在人类中,CpG模式是占主流的,只有在配子及胚胎发育早期以及一些干细胞中会存在约1/4的CHG及CHH甲基化模式。

图上下方的曲线图紫色区域显示了5mCH/CH的比例变化,可以看到在配子时期,CHG与CHH都占有很大的比重,这一时期并不是CpG一家独大的。当然,在人生中绝大部分的时期里CpG都是占据绝对主流的。
CpG岛
提到CpG,伴随而来的另一个名词就会跃入脑海:CpG岛。
顾名思义,所谓CpG岛就是多个CpG二核苷酸位点密集地聚集在一起,好像DNA大海中一个个孤独的小岛,所以被称为CpG岛(CpG Island)。
目前通行的CpG岛的概念最早是由Gardiner-Garden和Frommer于1987年提出(J.Mol.Biol 196,261-282),而后在2002年由Takai D和Jones PA进行了一些更新,不过我们最常获取CpG岛的数据来自UCSC数据库,在UCSC上下载的CpG岛数据依然是以Frommer等提出的定义为标准的。

按照定义,一个所谓的“CpG Island”应当满足如下三条标准:

有了这个定义,我们完全可以根据序列特征计算CpG岛的存在与否了。而现在,我们可以从UCSC网站上直接去下载最新的CpG岛数据,具体方法是打开浏览器,输入网址https://genome.ucsc.edu/cgi-bin/hgTables,在页面中设置选项参数assembly = hg19,group = Regulation, track = CpG Islands,完毕后点击【get output】即可下载了。

很多人都知道,CpG岛多位于启动子区,这样的基因占总数的比例在60-70%左右,但是更进一步严格点说,实际上在转录起始位点(TSS)附近范围内都是CpG富集的区域,不只是在TSS上游的promoter区,很多基因在第一个外显子区也富含CpG形成CpG岛。
下面我们来看一个典型例子,这个例子是前几日普鲸君设计焦磷酸引物时碰到的:

最终,别忘记了:不是所有的甲基化CpG都位于CpG岛内,只是目前CpG岛的作用及对我们的研究意义较大,请大家在小讲堂结束时也不要忘记这一点,后续我们会讲到散在的CpG二核苷酸甲基化的作用。