22种单细胞自动注释方法性能大比拼


大家做过单细胞的都深有体会,目前大多数的单细胞分析都依赖于手动注释,不仅耗时长、复现性又差。随着技术的进步,一些自动化注释的方法出现了,我们发现一篇比较22种单细胞自动注释的方法,特地分享给大家:来自莱顿大学计算生物学中心的Tamim Abdelaal团队在Genome Biology上发表题为:A comparison of automatic cell identification methods for single-cell RNA sequencing data的文章,对22种自动识别、分类细胞的方法进行了全面的评价。

作者对22种分类器(Table 1)在11个数据集中的性能和计算时间进行了测试。其中包括了通用分类器SVM和数智生物常用的singleR,总体而言,所有分类器的测试结果良好。

不同的分类器在不同的数据集中各显神通,比如Cell-BLAST在Baron(Mouse)和Segerstople胰腺数据集中表现的不太友好,但SVM的整体性能却很强(图1B),未标记的细胞也更少。而对于Mus musculus(TM)、肺癌细胞系的数据集来说性能最好的分类器分别是SVMrejection、SVM、scmapcell、Cell-BLAST和scPred。此外,KNN的性能会随着深度注释而下降、scVI在深度注释的数据集上的性能也很差。

对于PBMC数据集来说,不同的分类器在每个细胞群体中标记基因的数量也会不一样,并且很少有重叠。比如Zheng数据集,DigitalCellSorterDE、GarnettDE和SCINADE的最佳标记基因个数分别为5、15和20个,而Zheng 68K的最佳标记个数为5、5和10个。这些结果表明,分类性能比较依赖于标记基因的选择。
为了评估不同流程和不同实验室之间的分类性能,作者使用了四个人类胰腺数据集测试,结果显示数据集之间的批次差异会影响分类的性能。对原始数据而言,性能最好的分类器是scVI、SVM、ACTINN、scmapcell、和SingleR。对于处理后的数据,性能最好的分别是KNN、SVMrejection、singleCellNet、SVM、和NMC。

一般情况下,所有的分类器的计算时间都会随着细胞数量的增加而延长,但并不是所有的分类器计算时间都会增加。为了公平的评估不同分类器的运行时间,作者分别调查了细胞数量、特征以及群体的影响,对两个最大的数据集(TM、Zheng 68K)进行了测试,意外地发现CaSTle、CHETAH和SingleR的细胞数量在增加,但计算时间却在减少。
作者综合全面的比较,建议使用通用的SVMrejection分类器,因为与其他分类器相比,它具有更好的性能。