单细胞分析方法选对了么?Nature子刊的反卷积方法让你的肿瘤研究少走弯路!
单细胞转录组测序(scRNA-seq)是一种能检测单个细胞内基因表达情况的转录组测序技术,这也是单细胞转录组测序相比bulk转录组测序最大的优势。近几年很多高分文献都运用了scRNA-seq,也是斩获课题和基金的利器。可以说掌握了单细胞测序的分析,毕业和论文起码都不愁了耶~~ 许多组织样本不适合分解成单个细胞而进行scRNA-seq,但是对整个组织进行RNA测序后,再通过反卷积分析由整体探知局部,从而获知整个组织的细胞类型也能达成相似的效果。小云今天分享的文献,从可变肿瘤纯度、缺失细胞类型以及上皮细胞和免疫细胞类型共三个维度出发,利用公共数据库中乳腺癌的单细胞测序数据,针对九种分析肿瘤微环境的反卷积方法进行性能对比。这下还用发愁怎么分析scRNA-seq么,这样现成的好东西快抓紧用起来呀!
题目:肿瘤微环境反卷积方法在乳腺癌单细胞组群混合物中的表现
杂志:Nature Communications
影响因子:IF=16.6
发表时间:2023年9月
研究背景
肿瘤微环境(TME)在癌症的发生、进展和转移中起着关键作用,肿瘤浸润性免疫细胞的存在与多种癌症的治疗反应和患者预后有关。乳腺癌是一种由多种分子亚型组成的异质性疾病,根据分子亚型的不同,TME的组成具有不同的治疗和结果影响。其他TME成分,包括肿瘤相关巨噬细胞和成纤维细胞,也与影响乳腺癌预后和治疗反应有关,尽管它们的作用尚未完全确定。 Bulk RNA-seq分析是研究TME的常用方法,有几种计算方法可以通过对bulk RNA-seq数据进行反卷积来估计TME内的细胞类型。先前对TME反卷积方法性能的测试研究要么集中在可能影响反卷积的技术方面,要么集中在整体反卷积性能,而没有全面研究可能影响TME反卷积的生物和样本异质性的影响。此外最近开发的几种利用scRNA-seq作为基因表达参考谱或训练数据的方法尚未进行基准测试。相关细胞系的细胞类型之间的基因表达相似性已被证明会影响基于转录组学的反卷积的性能。理论上,高TME反卷积粒度可以通过更多的注释良好的scRNA-seq数据集和最近开发的基于scRNA-seq的反卷积方法来实现,但仍然需要进行基准测试。此外肿瘤细胞的比例也可能会影响TME反卷积性能。
数据来源
研究思路
在这项研究中,作者综合衡量了可变肿瘤纯度、缺失细胞类型以及上皮细胞和免疫细胞类型谱系对计算TME反卷积性能的影响。作者评估了最近开发的三类不同的反卷积方法的性能:七种基于单细胞的方法(CIBERSORTx, MuSiC, Bisque, DWLS, CPM, BayesPrism, hspe),一种基于签名基因的方法(EPIC)和一种基于深度学习的方法(Scaden)。作者使用scRNA-seq乳腺癌图谱来模拟具有已知纯度水平和肿瘤和正常上皮细胞、b细胞、t细胞和骨髓亚型颗粒组成的人工bulk RNA混合物,以确定样品异质性对每种反卷积方法性能的影响,强调了对更罕见的细胞类型进行更多单细胞表征的必要性。
主要结果
1. 模拟人工bulk混合物以评估TME反卷积方法的性能
作者使用已发表的scRNAseq乳腺癌数据模拟了人工大量RNA-seq混合物。scRNA-seq数据来自26例乳腺癌患者,代表三种分子亚型:ER+ (n = 11例)、HER2+ (n = 5例)和三阴性乳腺癌(TNBC;N = 10例)。共有100,064个细胞被注释为9种主要细胞类型,29种次要细胞类型和49个亚群(图1a)。每个患者样本在细胞类型丰度上存在差异,某些细胞类型在特定患者中缺失;使用一种称为合成少数过采样技术(SMOTE)的过采样方法,以确保每个患者体内细胞类型的均匀表示,并实现不同范围的模拟混合物。 作者将数据分成训练(18例患者样本)和测试(8例患者样本)数据集,确保所有三种乳腺癌亚型(ER+, HER2+和TNBC)和主要细胞类型都在这两个数据集中表示(图1b)。使用稀疏模拟过程来创建大体积细胞混合物,该方法随机化了细胞类型的数量,并在所有细胞类型中实现了更多样化的比例范围,模拟具有不同肿瘤纯度和免疫细胞系的大量RNA-seq数据,以评估九种反卷积方法的性能(图1b, c)。
图1 研究的实验设计
2. 跨肿瘤纯度水平的TME反卷积方法的性能
作者首先评估不同肿瘤纯度水平对TME反卷积方法性能的影响,模拟了38,000个测试细胞混合物,包括19种纯度水平中,每种水平的2000个模拟(每位患者250个),肿瘤细胞的范围从5%到95%(图1b)。在所有细胞类型中,预测比例和真实比例之间的布雷-柯蒂斯差异表明BayesPrism, Scaden和MuSiC在所有纯度水平上都优于其他方法 (图2a)。此外,BayesPrism、MuSiC和hspe通常在肿瘤含量较高的样品中表现较好,而DWLS、CBX、Bisque、EPIC和CPM在肿瘤纯度较高的样品中表现较差。 为了研究特定细胞类型的预测是否受到肿瘤纯度的影响,作者分析了九种主要细胞类型的中位数RMSE值。BayesPrism、Scaden、MuSiC、CBX和DWLS是唯一在所有肿瘤纯度水平的混合物中对所有三种免疫细胞类型(t细胞、b细胞和骨髓细胞)实现RMSE值< 10的方法(图2b)。在去卷积t细胞和b细胞中,BayesPrism和DWLS更优,在所有纯度水平下的RMSE值都较低。值得注意的是,DWLS在所有纯度水平的b细胞中获得了最低的RMSE值,而另四种方法在大多数肿瘤纯度水平下的免疫细胞的RMSE值≥2,在低肿瘤纯度水平下的RMSE值≥10,表明免疫细胞的性能相对较差(图2b)。癌症和正常上皮是BayesPrism、Scaden、MuSiC、CBX、DWLS、hspe和EPIC的所有纯度水平中预测错误最多的细胞类型(图2b),预测错误的程度随着肿瘤纯度的提高而增加。
图2 可变肿瘤纯度对反卷积的影响
3
. 验证了TME反卷积方法的性能
作者使用了另外两个单细胞RNA-seq数据集来重复评估肿瘤纯度对反卷积的影响。模拟了另外85,000个测试细胞混合物,其中包括5000个模拟(每个患者250个),用于19个纯度水平。BayesPrism对肿瘤纯度表现出最佳的整体性能,是唯一在两个数据集所有肿瘤纯度水平上实现布雷-柯蒂斯不相似度≤0.22的方法。Scaden、MuSiC和CBX也表现出良好的表现。BayesPrism、Scaden、MuSiC、CBX和DWLS在免疫细胞类型上表现良好。 作者继续使用了 TCGA中乳腺癌患者的数据,将预测的癌细胞比例原研究 (n = 1031)得出的共识纯度估计(CPE)进行了比较,并使用深度学习 (n = 892)将预测的淋巴细胞比例(t细胞和b细胞)与H&E图像产生的肿瘤浸润淋巴细胞(TIL)估计进行了比较。BayesPrism、Scaden和MuSiC在癌症和淋巴细胞预测方面表现最强,Pearson相关系数最高,RMSE评分最低(图2c, d),CBX、DWLS和hspe在预测癌症比例方面的表现优于Bisque、EPIC和CPM(图2c)。除了hspe和DWLS外,这4种方法都过度预测了淋巴细胞比例(图2d)。
4. 反卷积方法在不同乳腺癌分子亚型正常上皮细胞系中的表现
接下来作者探讨了癌症上皮细胞作为正常上皮细胞的错误预测(在7种方法中观察到)是否与乳腺癌分子亚型(ER+、HER+和TNBC)或正常上皮次要细胞类型(管腔祖细胞、成熟管腔细胞和肌上皮细胞)相关。作者在固定的肿瘤纯度为50%的情况下,对正常上皮细胞使用次要亚型注释模拟新的混合物(图2b)。在每一种乳腺癌分子亚型中,癌症上皮细胞和正常上皮小细胞类型是原始预测误差的主要驱动因素,对三种正常上皮小细胞类型的预测各不相同(图3a, b)。在TNBC中,所有反卷积方法中,管状祖细胞产生最高的RMSE评分(图3a),而癌症上皮细胞被低估(图3b),表明它们可能是正常上皮细胞错误预测的原因。相比之下,成熟的管腔细胞是ER+肿瘤错误预测的可能原因。对于HER2+分子亚型,不同方法对管腔祖细胞或成熟管腔细胞的预测误差均升高。
图3 正常上皮谱系和分子亚型对反卷积的影响
5. 跨反卷积方法的假阳性和假阴性预测
在反卷积的背景下,假阳性和假阴性预测可能导致TME内细胞组成的严重错误表征。当一种方法预测一种细胞类型存在,而它在混合细胞中不存在(<0.1%)时,就会出现假阳性;反之亦然(图4a)。作者使用肿瘤纯度为50%的2000个细胞混合物(每个患者250个)和先前肿瘤纯度实验中的9种主要细胞类型(图1b)来确定每种反卷积方法的假阳性和假阴性预测率。 对于假阳性预测,作者关注的是缺乏一种或多种细胞类型成分的细胞混合物。总体上hspe方法预测所有细胞类型的假阳性百分比最低(20.7%),其次是BayesPrism (31.9%), MuSiC (36.1%),EPIC (46%),DWLS (48.4%),CBX(50%)和Bisque(61.1%)(图4b)。Scaden和CPM的假阳性率最高。假阳性比例最大的细胞类型是正常上皮,除Bisque外,所有方法的错误预测最严重(图4)。在免疫细胞类型(t细胞、b细胞和骨髓细胞)的假阳性比例方面,hspe、BayesPrism、MuSiC和DWLS表现最好,假阳性率≤42%(图4b)。由于肿瘤纯度固定为50%,因此不确定癌症上皮细胞类型的假阳性率。 对于假阴性率的计算,作者只关注混合物中存在的细胞类型成分。Scaden和CPM是唯一没有假阴性的方法 (图4c)。BayesPrism、MuSiC、CBX和DWLS的总体假阴性率最低,分别为2.6%、5.7%、3.2%和6.8%(图4c)。虽然hspe的假阳性表现最好,但其假阴性率最高24.4%。按细胞类型比较,Bisque法是唯一对正常上皮细胞类型假阴性率较高的方法(40.3%)。在免疫细胞类型的假阴性方面,BayesPrism、MuSiC、CBX和DWLS表现最好。综上,考虑假阳性和阴性率,没有一种方法优于其他方法,但BayesPrism, MuSiC, CBX和DWLS表现出最佳的可比较性能。
图4 用假阳性和假阴性率评价九种反卷积方法的性能
6. 跨免疫细胞谱系水平反卷积方法的性能
作者试图确定在t细胞(11种亚型)、b细胞(2种亚型)和髓细胞(10种亚型)的次要细胞类型或更颗粒亚细胞类型的背景下,反卷积性能是否会下降(图5)。使用Aitchison距离来比较每个方法在谱系水平上的总体性能。BayesPrism在所有主要、次要和子集细胞类型水平上的最佳综合性能对应的中位数距离最低,其艾氏距离分别为2.88、8.2和12.14(图5b)。三个级别的总体表现紧随其后的是DWLS、MuSiC和CBX。当仅使用混合物的免疫细胞来计算预测比例和期望比例之间的Aitchison距离时,DWLS在子集和次要水平上优于其他方法,而BayesPrism在主要水平上仍然是最佳方法(图5c)。 在各个谱系水平上,BayesPrism在主要水平(BayesPrism的RMSE为2.0-4.5,DWLS的RMSE为2.1-3.2)、次要水平(BayesPrism的RMSE为3.4-8.5,DWLS的RMSE为2.8-9.4)和子集水平(BayesPrism的RMSE为0.8-9.4,DWLS的RMSE为0.7-14.8)上的表现都不如DWLS;图5d)。作者使用相对比例误差(RPE)值来了解每一个百分比的地面真值的错误预测程度。对于所有三个谱系水平的大多数细胞类型,DWLS产生的RPE值低于BayesPrism(图5e)。然而BayesPrism和DWLS在子集水平上也产生了一些极端的错误预测。 总体而言,DWLS和BayesPrism在所有次要和亚群免疫细胞类型中假阳性率最低(DWLS为29.9%,BayesPrism为22.10%)。另一方面,DWLS在处理假阴性方面优于BayesPrism,在次要(28.3%相比BayesPrism的40.1%)和子集(49.0%相比BayesPrism的55.8%)水平上都实现了更低的假阴性率。
图5 免疫谱系对反卷积的影响
文章小结
针对最近开发出的单细胞反卷积方法,作者用多组乳腺癌测序数据进行测试,多角度分析了各类方法在不同肿瘤微环境下的分析差异,可以让相关的研究者依据数据特征选择合适的方法,或用不同的方法验证已分析的结果。不知道在其他肿瘤数据是否也能起到作用呢,有兴趣的小伙伴也来试试吧~ 如果你还苦恼于生信分析没有思路,或者嫌分析方法太过简单、太过老套,想要创新思路的,或者对单细胞分析、多组学联合分析等方向感兴趣的小伙伴快来联系小云吧!