欢迎光临散文网 会员登陆 & 注册

单细胞实战(1)数据下载-数据读取-seurat对象创建

2023-08-02 15:14 作者:单细胞指南  | 我要投稿

这篇文章我们将介绍从geo数据库下载单细胞测序数据后,多种数据格式多样本情况下,如何读取数据并创建seurat对象。本文主要结构:
一、数据下载二、数据读取与seurat对象创建

  • 单样本情况下各种格式数据的读取,读取后seurat对象的创建

  • 多样本情况下各种格式数据的读取,读取后seurat对象的创建、合并

一、数据下载大家自行去GEO官网(https://www.ncbi.nlm.nih.gov/gds)搜索下载自己想要的单细胞测序数据。本文后面会提供数据用于示例代码测试。


GEO数据库上提供的单细胞测序数据常见格式主要有以下几种:

  • 10x Genomics格式:这是一种由10x Genomics公司开发的专用文件格式,它包含三个子文件:barcodes.tsv、features.tsv和matrix.mtx。这三个文件可以用于存储单细胞测序数据的细胞条形码、基因特征和稀疏表达矩阵 。

  • h5格式:这是一种用于存储大规模数据的二进制文件格式,它可以包含多种数据类型,如矩阵、表格、图像等。

  • 压缩文本矩阵(TXT或CSV的GZ文件):压缩文本矩阵可以用于存储单细胞测序数据的表达矩阵或元数据,它可以减少文件的大小和传输时间 。

  • h5ad格式:它专门用于存储和分享单细胞表达数据,它使用Anndata库来创建和读取。h5ad格式可以与cellxgene或Seurat等工具兼容,进行单细胞数据的可视化和分析 。

  • h5seurat格式:这是一种基于h5格式的文件格式,它专门用于存储和分析多模态单细胞和空间分辨率表达实验,如CITE-seq或10X Visium等技术。h5seurat格式可以与SeuratDisk等工具兼容,进行单细胞数据的读写 。

  • R数据文件(RDS/RDATA文件):以R语言的数据文件格式存储表达式矩阵,需要R软件直接读取。

二、数据读取与seurat对象创建样本单样本情况下每种格式的数据读取与seurat对象创建演示:10x Genomics格式:演示数据的下载:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE234527


文件下载后解压,并修改名称,存放路径如下图:

读取文件并创建对象的代码参考:

h5格式:演示数据的下载:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE200874

下载后解压,存放路径如图

读取文件并创建对象的代码参考:

压缩文本矩阵(TXT或CSV的GZ文件):这两种文件建议先手动加压到本地查看一下文件内容格式。CSV压缩GZ格式演示数据的下载:
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=gse130148

下载后文件的存放路径

CSV压缩GZ格式示例代码:

txt压缩GZ格式示例代码:

    h5ad格式:

    下载测试文件:
    https://www.dropbox.com/s/ngs3p8n2i8y33hj/pbmc3k.h5ad?dl=0

    R数据文件(RDS/RDATA文件)

      多样本

      多样本情况下我们主要关注10x Genomics格式和压缩文本矩阵(TXT或CSV的GZ文件)

      10x Genomics格式多样本读取与对象创建
      测试数据下载:
      https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE234527

      示例代码:

      h5格式多样本数据读入与对象创建:测试数据下载:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE200874

      下载后将数据解压:

      压缩文本矩阵(TXT或CSV的GZ文件)多样本:下载测试文件:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi下载三个数据演示一下代码

      下载后解压:

      示例代码:

      大家可以使用fread()等更高效的函数代替文中的read.csv()函数,但是要注意读取后数据格式是否准确。

      参考链接:https://www.jianshu.com/p/5b26d7bc37b7参考链接:https://mp.weixin.qq.com/s/M15kWdH8eDONfakNhY-enA



      单细胞实战(1)数据下载-数据读取-seurat对象创建的评论 (共 条)

      分享到微博请遵守国家法律