和R语言一起探索单细胞基因表达!
尔云间一个专门做科研的团队
小果 生信果
欢迎点赞+收藏+关注

当我们拿到一组单细胞数据的矩阵时,如何在处理之前观察细胞和基因表达之间的关系呢?今天小果就带大家一起来看一下!

1、生成数据矩阵
今天我们用到的数据仍然来自于scRNAseq包中的细胞集哦!数据矩阵的生成方法小果已经给大家准备好啦!一起来看一下吧!
使用R语言中的View()函数可以直接查看我们生成的数据矩阵哦,我们一起来看一下。

2、探索基因表达情况
在探索基因表达情况,具体时从哪些角度来看呢?小果在这里给大家体共两种思路:
1.统计某个基因在多少个细胞中得到表达;
2.统计一个细胞中表达了多少个基因;
那么要从这两个角度去探索,分别要如何去统计呢?快调动你聪明的小脑袋!如果想不到也没关系,今天小果手把手教你完成!
o 统计所有基因表达成功的细胞个数
对于基因表达成功的细胞个数,我们需要用apply函数统计数据矩阵中每一行元素中对应值大于0的个数,接下来我们进行统计并绘制箱线图观察整体表达情况。和小果一起来看看吧!
fivenum(apply(counts,1,function(x) sum(x>0) ))#统计所有基因表达成功细胞个数中的五个指标
boxplot(apply(counts,1,function(x) sum(x>0) ))#绘制箱线图

得到以上的箱线图后,小果来给大家做一个简单的解读吧!由箱线图的中位线可以看出,基因表达成功的细胞数的中位数值大概在3个左右,表达细胞数的阈值大概在35左右,即说明如果基因在35个细胞内不表达就可以直接过滤掉哦。
o 统计所有细胞表达了的基因个数
有了上面的基础,你是否学会举一反三了呢?对于细胞表达了的基因个数,我们同样使用apply函数统计数据矩阵中的每一列元素中对应值大于0的个数即可,接下来我们用直方分布图来和大家展示一下整体的表达情况。和小果一起看看吧!
fivenum(apply(counts,2,function(x) sum(x>0) ))#统计所有细胞表达了基因个数中的五个指标
hist(apply(counts,2,function(x) sum(x>0) )) #绘制直方分布图

在分析了箱线图的统计结果后,你能否独立分析直方图的统计结果呢?我们还是和小果一起来看一下!
由直方分布图的统计结果可以看出,表达基因个数在3000~4000之间的细胞占最多数量,表达基因个数在8000以上的细胞仅有2~3个,占最少的数量。
通过以上两组统计图的分析,我们就对基因在细胞中的表达情况游客整体的把握,怎么样,今天的小技巧你学废了嘛?更多生信技巧请继续关注小果哦!

生信人R语言学习必备
立刻拥有一个Rstudio账号
开启升级模式吧
(56线程,256G内存,个人存储1T)
往期代码:
【1】lncRNA的拷贝数变异下游相关分析
【2】R可视化:ggstatsplot包—科研界的美图秀秀
【3】随机森林算法用于分类预测和筛选诊断标志物
【4】基于本地Java版GSEA的输出结果整合多个通路到一张图
【5】基于岭回归模型和基因表达矩阵估算样本对药物反应的敏感性
【6】基于R包NMF对样本进行分型分析
【7】DALEX包用于探索、解释和评估模型;分析不同特征变量对响应变量的影响
【8】根据肿瘤突变负荷TMB进行KM生存分析寻找最佳的cutoff
【9】基于单样本富集分析算法评估组织中的免疫细胞浸润水平
【10】代码分享│什么?你还在用散点图来可视化数据之间的相关性
【11】代码分享│诊断列线图、校准曲线、决策曲线和临床影响曲线的构建
【12】代码分享│你了解基因的动态变化模式吗
【13】代码分享│生物信息分析之SCI热门图表-复杂热图
【14】代码分享│生物信息分析之SCI热门图表-火山图
【15】代码分享│生物信息分析之SCI热门图表-箱型图和小提琴图
【16】代码分享│深度学习-人工神经网络(ANN)的构建
【17】代码分享│R可视化:高分文章绘图之基于RCircos包的多类型圈图绘制
【18】代码分享│R可视化:基因与功能之间的关系--GO功能富集网络图绘制
【19】代码分享│生物信息分析之SCI热门图表—KM曲线和tROC曲线
【20】代码分享│R可视化:肿瘤预后模型之Cox回归分析后用R语言绘制森林图
【21】代码分享│生物信息分析之SCI热门图表—相关性热图和散点图
【22】代码分享│生信分析之R语言分析相关性及可视化的N种风格
【23】代码分享│TCGA数据获取有困难,不会预处理,学习起来
【24】代码分享│机器学习-支持向量机递归特征消除(SVM-RFE)的构建
【25】代码分享│R可视化:对两个矩阵进行相关性可视化分析
【26】GEO数据库多数据集差异分析整合利器RRA,再也不用纠结去除批次效应
【27】你与生信大佬的距离,只差2分钟搞定预后模型构建和性能评估
【28】9+SCI纯生信,模型构建中的“流量明星”,你不得不知的LASSO
【29】手把手教你画美观大气的lasso回归模型图,为你的SCI增砖添瓦
【30】R可视化:clusterProfiler包做组间比较GO富集图
【31】代码分享|R可视化:复杂热图绘制技巧之热图中添加柱状图
【32】代码分享——基于基因突变信息分析肿瘤突变负荷
【33】代码分享│富集不到想要的通路?别放弃呀,试试GSEA
【34】代码分享│还在用PCA做降维聚类吗?最强降维模型tSNE--你值得拥有
【35】代码分享│GSVA:原来功能通路也能做差异分析!
【36】代码分享│Slingshot:你不知道的单细胞拟时序分析还有它
【37】基于基因功能注释信息挖掘关键作用基因
【38】基于癌症分类预测的标志物特征提取的SVM-RFE分析代码
【39】依据表型数据基于无监督聚类算法对研究群体进行分层聚类分析
【40】基于稳健排序整合算法对多数据集进行整合及可视化
【41】基于基因表达谱估算样本免疫基质评分和肿瘤纯度
【42】自动化绘制LASSO算法回归模型图
【43】用于临床诊断和临床决策影响的DCA分析
【44】基于样本预后生存信息和临床因素用于评价不同模型的一致性指数软件
【45】用于探索、解释和评估模型的DALEX残差分析软件
【46】基于细菌群落功能丰度结果进行差异功能分析及可视化
【47】基于基因差异分析结果绘制其在染色体上的分布
【48】利用逐步回归法筛选特征基因构建Cox风险模型分析
【49】基于Immune Subtype Classifier进行肿瘤免疫亚型分类
【50】不同物种之间的同源基因名称转换分析
【51】基于逐步多因素cox回归筛选预后标记基因并构建风险评分模型
【52】基于表达信息挖掘与关注基因密切相关的基因
【53】基因组学基因名称修正分析
【54】基于Spearman算法构建关联网络
【55】基于线性建模方法对代谢组和转录组数据整合分析
【56】基于lasso回归模型方法筛选特征基因
【57】基于线性建模方法对代谢组和转录组数据整合分析
【58】基于参数型经验贝叶斯算法和支持向量机(SVM)筛选疾病亚型特征基因
【59】基于LDA(线性判别分析)算法的微生物biomarker的筛选
【60】基于R包xCell计算64种免疫细胞相对含量及下游可视化
【61】基于甲基化数据评估肿瘤纯度及下游可视化
【62】基于DiffCorr包识别不同表型下的差异共表达关系对
【63】基于逆累计分布函数识别显著偏差通路
【64】基于差异基因对通路的影响挖掘关键通路
【65】基于高通量数据的样本相似性分析
需要以上代码私信小果哦!

“生信果”,生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器、生物信息学的教程,以及基于R的分析和可视化等原创内容,一起见证小白和大佬的成长。