欢迎光临散文网 会员登陆 & 注册

DIANA-mitED:microRNA 组织表达数据库

2022-01-27 20:00 作者:275276  | 我要投稿

http://www.microrna.gr/mited

DIANA-miTED: a microRNA tissue expression database


microRNA (miRNA) 是短的 (~23nt) 单链非编码 RNA,可作为有效的转录后基因表达调节剂。有关 miRNA 在细胞类型和组织中的表达和分布的信息对于理解它们的功能以及它们作为生物标志物或治疗靶点的转化用途至关重要。DIANA-mitED 是最全面、最系统的 miRNA 表达值集合,源自对来自序列读取档案 (SRA) 和癌症基因组图谱 (TCGA) 的 15 183 个原始人类小 RNA-Seq (sRNA-Seq) 数据集的分析。元数据质量最大限度地提高了表达图谱的效用,因此我们手动整理了 SRA 和 TCGA 派生信息,以提供全面和标准化的集合,总共包含 199 个组织、82 个解剖亚位、267 个细胞系和 261 种疾病。miTED 提供跨变量的请求数据的表达式和样本分布的丰富即时可视化,以及研究范围的图表和图表,从而实现高效的内容探索。查询还生成指向最先进的 miRNA 功能资源的链接,认为 miTED 是表达检索、探索、比较和下游分析的理想起点,无需生物信息学支持或专业知识。DIANA-mitED 可在以下位置免费获得 和下游分析,无需生物信息学支持或专业知识。DIANA-mitED 可在以下位置免费获得 和下游分析,无需生物信息学支持或专业知识。DIANA-miTED 可在以下位置免费获得http://www.microrna.gr/mited


microRNA (miRNA) 是丰富的调节性 RNA,主要指导其靶转录物的切割、降解和/或翻译抑制 ( 1 )。转录后水平基因表达的抑制主要归因于 miRNA 功能(2)。为此,对它们在组织和细胞类型中的丰度进行准确编目是了解生理和病理条件下基因调控和失调的不可或缺的工具。同样重要的是,在疾病和健康状态之间或在疾病过程中,组织和生物体液中改变的 miRNA 水平可以区分疾病或与临床表型和结果相关联,突出特定 miRNA 可能携带的诊断、预后或预测生物标志物能力( 3、4 ) 。_

最初,有限数量的已知 miRNA 使用低产量方法进行量化,包括 Northern 印迹和定量逆转录酶 PCR (RT-qPCR) 以及 miRNA 定制微阵列 ( 5-7 )。测序技术(下一代测序,NGS)的进步极大地提高了数据产量,并提供了一种大规模量化 miRNA 和发现新的 miRNA 的方法 ( 8 )。目前,推导 miRNA 丰度估计值的最先进的高通量方法是小 RNA 测序 (sRNA-Seq)。数千个公开可用的 sRNA-Seq 数据集以原始或计数格式存储在存储库中,例如序列读取档案 (SRA) ( 9 ) 和基因表达综合 (GEO) ( 10 )),而癌症基因组图谱 (TCGA) 等大型联盟也生成了大量数据集,捕获了数千个患者样本中的 miRNA 丰度 ( 11 )。

创建一个全面且一致的人类 miRNA 表达图谱是一项具有挑战性的任务,因为 (i) 提供了可用的数据集以在各种分析级别(例如原始 FASTQ 文件、计数级别估计、标准化表达值)进行检索,它们是利用(ii) 可变的 miRNA 注释来源和版本,以及 (iii) 不同的量化管道和算法选择 ( 11-14 )。此外,公共存储库和个人提交者以最低限度的系统方式对样本和研究特定的元数据进行注释,从而阻碍了将来自不同来源的数据集集成到一个统一的数据库中。

对 miRNA 表达估计进行编目,尤其是在疾病中,是一项高价值的科学工作,在基础研究和转化研究中具有许多潜在应用。当前可用的实现在范围、广度和功能上有所不同。miRmine ( 15 )、HMED ( 16 ) 和 DASHR2 ( 17 ) 旨在捕获各种样本类型和组织,分别包含 304、401 和 802 个数据集。miRmine 允许单个/多个 miRNA 查询并输出细胞系或组织的样本级 RPM 矩阵。DASHR2 专注于小 RNA 的基因组定位,提供有关其序列和二级结构的信息(通过 RNAfold),并为每个小 RNA 提供静态表达表。YM500v3(18) 仅关注癌症,样本仅来自 TCGA。SEAWeb ( 19 ) 是一个 Web 应用程序,提供各种分析,例如差异表达和分类,允许用户上传他们的结果以与数据库内容进行比较。SEAWeb 包含来自 10 种生物的 4258 个数据集(3360 个人类数据集)。最后,DeepBase v3.0 ( 20 ) 将数据分为两类,即“癌症数据”(来自 TCGA 和 ICGC)和“组织数据”(来自 SRA/GEO、GTEx、ENCODE 的 500 个数据集)。重要的是,在 DeepBase 中收集的 miRNA 表达值是指前体或 miRNA 宿主基因,未能在其提供的每种分析类型中提供功能性成熟 miRNA 形式的丰度估计。在撰写本文时,HMED 和 YM500v3 尚未处于功能状态。

直到今天,如上所述,大多数可用的数据库要么包含少量数据集,要么只关注或几乎只关注 TCGA,这主要是由于实际原因。TCGA 是一种相当统一的资源,而 GEO/SRA 研究在文库制备、使用的适配器和样品质量方面极为多样化。DIANA-mitED 弥补了这一差距,使研究人员能够在迄今为止最广泛的文库中调查 miRNA 表达,并从单一资源执行简单或复杂的分析。表中列出了所有可用数据库的功能和条目表格1,1,它捕获来自每个数据源的条目数、mitED 相对于该特定源的倍数变化增加,以及对每个资源提供的工具和下游分析的访问。miTED 不仅是迄今为止最大的此类数据库,而且它提供与 DIANA 工具 cosmos 的直接互连,使研究人员能够从单个用户界面执行目标预测、优先级排序和功能调查。

表格1。
DIANA-mitED 与现有资源分类 miRNA 表达的比较。提供了包含的数据集的数量及其与 miTED 相比的倍数差异、可用的表达单元、miRBase 的版本和每种资源的 miRNA 相关功能。NA 值对应于访问资源或执行查询失败的情况

为了生成 miTED,我们利用 DIANA-mAP 分析工作流程 ( 21 )对从 TCGA 和 SRA 检索到的 >15000 个 sRNA-Seq 数据集进行了预处理和分析。DIANA-mAP 确保对 sRNA-Seq 数据集进行全自动 A 到 Z 统一分析,从原始文件到表达估计。我们的结果发表在 DIANA-mitED(miRNA 组织表达数据库)中,这是一个健康和疾病状态下 miRNA 表达的在线图谱(http://www.microrna.gr/mited)。在 miTED 中,用户可以检索一个或多个 miRNA 和/或组织/细胞系的表达值,识别最高表达的 miRNA,或感兴趣的 miRNA 表达最多的最高组织/细胞系(图(图1)。

图1。
DIANA-mitED 开发工作流程。最初,人类原始 sRNA-Seq 数据集是从 NCBI-SRA 和 TCGA(从 TCGA 获得并转换回 FASTQ 格式的对齐文件)中检索的。原始数据集统一进行预处理和质量控制、对齐和量化。计算 miRBase miRNA 的读取计数、RPM 和 log 2 (RPM) 值。来自这两种资源的元数据都是手动管理的,以便为分析的数据集创建一套全面、标准化的元数据注释。DIANA-miTED 资源是利用 MongoDB(noSQL 数据库)开发的,PHP/Laravel 用于数据访问层开发,Typescript/Angular 用于应用层开发。miTED 具有广泛的查询、过滤和可视化选项,并支持对请求数据的本地检索。

方法和结果

数据收集和管理

原始 sRNA-Seq 数据集源自两个资源,即 NCBI-SRA ( 22 ) 和 TCGA 项目 ( 23 )。NCBI-SRA 数据通过选择所有具有图书馆策略的条目和有机体字段分别为'miRNA-Seq'和' Homo sapiens '来识别,并在本地检索。分析中仅包含包含组织或细胞系信息元数据的数据集。使用 GDC 数据传输工具检索 TCGA sRNA-Seq 数据集,以及来自 GDC 数据门户的相应转录组元数据(24),同时检索了所有可用的样本和患者元数据。研究中只包括了用患者和转录组元数据注释的 sRNA-seq TCGA 数据集。使用定义明确的 sRNA-Seq 分析工作流程 DIANA-mAP ( 21 ) 分析选定的数据集,遵循严格的质量控制(在“高通量数据分析”部分中描述),结果收集了 4142 个 NCBI-SRA 和 11 个041 TCGA 分析了数据集。

我们手动整理了 NCBI-SRA 和 TCGA 派生的元数据信息,以向用户提供连贯且标准化的集合。生成的集合提供以下元数据信息。'Sample_ID' 包含样品在 SRA(例如 SRR1774098)或 TCGA(例如 TCGA-P8-A5KD-11A-11R-A35M-13)中的识别码。'Collection' 保存样本的原始集合(SRA 或 TCGA)。'Project_ID' 包含样品在 NCBI-SRA(例如 PRJDB2675)或 TCGA(例如 TCGA-PCPG)中的项目识别码。miTED 中的所有条目都强制包含上述信息。此外,每个条目必须具有“组织或起源器官”或“细胞系”信息。根据初始元数据,提供以下信息:“组织亚区域”是指“组织或起源器官”的更具体的解剖位置。“疾病”包含有关疾病的信息(如果有)。值得注意的是,即使在来自同一研究的健康样本(对照患者)或来自同一患者的对照组织区域(例如来自癌症患者的匹配的健康和肿瘤组织)中,疾病元信息也已被注释。

高通量数据分析

使用 DIANA-mAP (v1.0) ( 21 ) 进行数据处理,这是一个强调预处理的全自动计算管道,允许用户执行从原始数据到量化和差异表达的 miRNA NGS 数据分析以一种简单、可扩展、高效和直观的方式。该工具是在 R 中开发的,并对 miTED 中包含的所有样本执行预处理、对齐和量化步骤。

预处理使用了外部工具 FastQC (v0.11.7) ( 25 )、DNApi (v1.1) ( 26 ) 和 Cutadapt (v1.16) ( 27 )。对原始数据集进行质量检查,允许最低 Phred 分数为 10,在未提供适配器时推断适配器,并在修剪后使用 18 bp 的最小允许读取长度进行修剪。随后使用 Bowtie (v1.1.1) ( 28 )将读取与 GRCh38 人类基因组组装进行比对,每次读取最多允许五个多图。最后,通过 miRDeep2 (v0.0.8) ( 12 ) 使用 miRBase v22 发夹和成熟的人类 miRNA 形式 ( 29 ) 对对齐的读数进行量化),并在对齐过程中允许前体上的一个错配。其余 DIANA-mAP 和外部工具的参数设置为默认值。

NCBI-SRA 数据集使用从可用的元数据派生的适配器信息进行分析,尽管此类信息非常稀缺。sRNA-Seq 数据集有时表现出特别低的比对率,甚至不到一半的读数可以分配给 miRNA,由于样品污染或其他一些生物学解释,但量化结果仍然可以被认为是可靠的 ( 30)。在我们的案例中,大量分析了数千个样本,并且在许多情况下都缺少适配器信息。为了避免由于不正确的适配器推断而包含错误的结果,我们选择保守地仅包含至少 50% 的预处理读数分配给已知 miRNA 的样本。相同的参数用于分析 TCGA 数据集,导致平均 79.2% [76.6–81.9, 95% 置信区间] 率或分配给已知 miRNA 的预处理读数。读取计数和每百万读取 (RPM) 单位直接从 DIANA-mAP 结果中检索,而 log 2(RPM + 1) 值是专门为可视化目的计算的。在对数转换期间在所有 RPM 值上加 1 是为了避免因对数转换零导致的未定义值。

数据库架构和实现

DIANA-miTED 是一个使用 MVC 架构构建并托管在 Apache HTTP服务器 2.4 上的 NoSQL 数据库。数据访问层(后端)由 MongoDB(https://www.mongodb.com/)和 PHP 框架 Laravel 8(https://laravel.com/)(PHP 7.2)组成,而表示层( front-end) 是使用 Angular 9.1 ( https://angular.io/ ) 和 Angular Material UI 库 ( https://material.angular.io/ ) 设计的。miTED 的数据存储在 NoSQL 数据库集合中,Laravel 处理与它们的连接以进行存储和/或检索。最后,在表示层,使用 Chart JS ( https://www.chartjs.org/) 和 Plotly JavaScript 开源图形库 ( https://plotly.com/javascript/ ),而 Flourish ( https://flourish.studio/ ) 用于更复杂的可视化。

数据库内容

分析来自 15183 个 sRNA-seq 数据集的超过 1200 亿个读数,其中 4142 个(27.3%)来自 NCBI-SRA,11041 个(72.7%)来自 TCGA,产生超过 1.2 亿个表达值(120978144),作为读取计数、每百万读取 (RPM) 和日志2 (RPM)。该数据库包含来自 261 种人类病理学的疾病样本的 12400 个数据集,以及来自健康样本的 1386 个数据集。14 146 个样本来自 199 个组织/器官,1037 个样本来自 267 个细胞系。性别比例在 miTED 内是平衡的,有 6751 个女性样本、6123 个男性样本(2309 个未注释条目)。

模拟接口


查询 miTED

实现了一个友好的在线图形用户界面,使用户能够搜索、浏览和元分析这个广泛的集合,而不需要生物信息学支持或专业知识。DIANA-miTED通过Querying DB顶部菜单提供三个主要查询页面,即Multi-query、Top-miRNAs 和Top-sites 。多查询页面提供了探索和比较特定 miRNA 在组织或细胞系中的表达的能力。Top-miRNAs页面返回特定组织或细胞系中表达最高的 miRNAs 。最后,热门网站页面提供了特定查询 miRNA 表达最多的组织或细胞系。所有生成的结果和图表都可以通过专用的下载按钮(数据表和图表)下载,无需登录、应用程序或验证程序。

在Multi-query页面中,用户可以查询、检索和比较组织或细胞系中一种或多种(甚至全部)miRNA 的表达。专用搜索框允许自由文本搜索和选择特定组织或细胞系和 miRNA(图(图 2A)。2A)。多查询表单提供了将搜索限制为特定疾病的机会,仅包括来自 SRA 或 TCGA 数据收集的结果,根据健康状况(即“健康”或“疾病”)检索数据,并在其中选择适当的表达单元读取计数、RPM 和日志2 (RPM)。结果分为三个不同的部分。(A) 第一部分专门用于可视化检索到的结果。分组箱线图可以比较特定组织/疾病中的 miRNA 丰度(图(图 2C)。2C)。此外,通过描绘组织-疾病关系的桑基图和性别、采集和健康状况的饼图探索样本分布(图(图 2D)。二维)。(B) 第二部分满足 miTED 结果与每个 miRNA 的相关 DIANA 资源(工具和数据库)的互连。miTED 为每个输入 miRNA 提供指向 DIANA-microT-CDS ( 31 ) 的超链接,这是一个预测 miRNA 目标的网络服务器,DIANA-Tarbase v.8 ( 32 ) 一个实验支持的 miRNA 目标的参考数据库,DIANA-LncBase v.3 ( 33),一个参考存储库,在长非编码 RNA 上具有实验支持的 miRNA 靶标,以及 DIANA-miRPath v.3(34),一个专门用于评估 miRNA 调节作用和识别受控途径的网络服务器。(C) 最后,在第三部分中,提供了一个数据表,其中包含样本元数据以及用户请求的 miRNA 的表达,如材料和方法部分所述(图(图2B2B)。

图 2。
多查询页面界面。(一)提交表格。用户可以搜索 2656 种 miRNA (1) 和组织 (2) 中的一种或多种。miRNA 和组织查询框都支持自由文本搜索。通过过滤选项,用户可以将他们的查询限制为特定的疾病 (3)、集合 (4) 和健康状况 (5)。通过表达式值下拉菜单 (6),用户可以选择将返回的所需表达式单位(读取计数、RPM、日志2 (RPM))。(乙) 结果表。返回所有符合应用标准的条目,以及它们的元数据和所选 miRNA 的表达式值。结果列表可以自定义为每页显示 20、50、100、150 和 200 个项目。一个有用的基于词的过滤器,Filter-down results (7),已被实施以缩小返回的条目并专注于那些包含非常具体的感兴趣术语的条目。用户可以通过单击“下载数据”按钮 (8) 以制表符分隔的格式检索其查询结果,而无需任何注册、申请或验证程序。( C) 交互式箱线图显示每个组织/器官的 miRNA 丰度分布。用户可以选择 (9) 图中可见的 miRNA,提供 miRNA 之间的直接比较。悬停时,(10) 个箱线图显示相应的箱线图统计数据(最小值、最大值、中值、下界、第一四分位数和第三四分位数)。( D ) 交互式桑基图可以直观地检查查询结果的组织-疾病关系。在悬停时,(11) 用户可以更详细地探索样本的分布。( E ) 饼图提供了跨性别 (12)、健康状况 (13) 和收集 (14) 变量的样本分布的直观表示。


Top-miRNAs页面是 miTED 资源中的第二个查询页面。通过此页面,用户可以搜索特定组织或细胞系中表达最高的 miRNA。显示的结果包括以降序显示所有 miRNA 表达的数据表和描绘所需组织或细胞系中最高表达 miRNA 的条形图。

Top-sites页面专门用于检索特定 miRNA 最丰富的组织或细胞系。与Top-miRNAs页面类似,结果包括一个表格,其中包含按降序排列的组织/细胞系的表达值,以及一个描述输入表达最多的顶部组织或细胞系的条形图。

miTED 中的可视化选项

DIANA-miTED 还通过其Visualizations菜单提供三个可视化页面。第一页,“组织 - 亚区域 | Graph Network',提供了一个图网络,描述了组织或起源器官与组织子区域之间的关系(图(图 3A)。3A)。它是一个交互式图表,提供突出显示和移动节点的能力,以探索它们之间的互连程度。“TCGA Projects Exploration”页面包含用于分别探索 TCGA 数据集的组织-疾病和组织-性别关系的桑基图(图(图 3B)。3B)。桑基图也是交互式的,可以探索每个类别中的样本分布。最后,“数据库统计”页面提供了描述整个数据库内容的补充图表。

图 3。
可视化。( A ) 与 miTED 中包含的样本中的器官和组织子区域相关的交互式图形网络。用户可以浏览图表并突出显示感兴趣的节点,从而显示出最多/最少的组织和器官。( B ) 交互式桑基图描绘了“起源组织或器官”与疾病以及“起源组织或器官”与性别之间的关系。悬停时,用户可以探索每个类别的样本分布。


DIANA-mitED:microRNA 组织表达数据库的评论 (共 条)

分享到微博请遵守国家法律