从引进到自研再到开源融合，这10年腾讯大数据平台经历了什么

2020-10-24 09:57 作者:自学Python的小姐姐呀 0人读过 | 我要投稿

3000米高空，一架民航客机拖着冒烟的机翼，在空中划出两条黑线。不远处，13名乘客被卷出机舱，生命垂危。

此刻，不远处的老贾（钢铁侠搭载的智能助手）通过大数据算法得出上百个解决方案，又将其一一排除。

突然，铠甲启动制动，一个人影开始在空中踱步，1、2、3......眨眼间，13名乘客全数获救，整个过程刚好30秒。

《钢铁侠3》中，空难救援的片段堪称经典。钢铁侠通过授权AI，使用大数据、云计算等技术实现在1/30s做出准确决策。

电影中展示的极端情况，激起我们对这类技术的好奇心。现实生活中，大数据、云计算等技术的迭代、融合和落地更是影响着上层应用（企业端）的方方面面。

腾讯云副总裁、腾讯数据平台总经理蒋杰

11月6日，雷锋网应邀参加了腾讯举办的Techo开发者大会。期间，腾讯云副总裁、腾讯数据平台总经理蒋杰就腾讯大数据平台演进历程、腾讯大数据平台发展方向以及AI、云技术的融合使用进行分享。

日数据计算量超30万亿

腾讯业务部门的资源和大数据平台机器资源的结合，形成大数据全平台算力。

蒋杰透露，截止目前，该算力资源池目前已有超过20万台的规模，每天实时数据计算超过30万亿条，而这样的成果并非一日得来。10年间，腾讯大数据平台的发展一共经历三个阶段：

1、离线计算

2009年1月，腾讯搭建起第一个Hadoop集群，开始做数据规模化。

这是一个由Apache基金会所开发的分布式系统基础架构，它实现了一个分布式文件系统（简称HDFS）。

HDFS有高容错性的特点，适于设计用来部署在低廉的（low-cost）硬件上；它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了算力。

2、实时计算

2012年，移动互联网爆发，腾讯大数据平台发展进入第二阶段——从Hadoop转向Spark和Storm体系。

在吸收开源技术的基础上，该平台结合业务需求进行了重写。期间，腾讯开始探索流式计算、秒级采集系统的建设，并构建企业级的实时数据分析体系。

大数据平台的在线分析和实时计算功能在实时报表、实时查询、实时监控等诸多场景下得以应用。

3、机器计算

2015年至今，为了支持业务数据挖掘的需求，开始主要建设机器学习平台。从数据分析到数据挖掘的转变，是大数据平台“智能化”的体现。

2016年，腾讯自研机器学习平台Angel，专攻复杂计算场景，可进行大规模的数据训练，支撑内容推荐、广告推荐等AI应用场景。

蒋杰称，腾讯大数据平台的发展，是一个从引进到自研、从离线到实时、从分析计算到人工智能的全维度的演进历程。随着资源管理平台核心TKE和分布式数据库TBase正式对外开源，与开发计算平台TDW、全栈机器学习平台Angel、开源实时数据采集平台TubeMQ一起构成腾讯大数据开源阵营，证实了腾讯大数据平台从开源中来，在具备自主研发能力后积极推动开源，回馈产业。

大数据平台新方向：融合

当谈到发展方向时，蒋杰重点强调了“融合”二字。在他看来，腾讯大数据平台正向着这三个特点进行迭代：

1、批流融合，批量计算、实时计算从分离，到SQL层面的融合，再到底层计算引擎层面、存储层面的多方面技术融合；

2、ABC融合，即人工智能、大数据和云的融合，前两者天生就应该绑在一起的，腾讯自研的机器学习平台Angel就是一个融合的案例，Angel目前已经实现了预处理到数据训练融合，当把整个体系能搬在云上后，即实现ABC的真正融合；

3、数据湖，实现跨IDC、跨平台、跨异构数据源的数据共享，通过联邦学习来解决数据共享中存在的数据安全和隐私的问题。

技术的发展，并不总是一帆风顺的。蒋杰表示，在经历大数据平台发展的阶段中，走过的坑可谓只多不少。

在资源调度领域，原生Hadoop的可承载规模较小，这就意味着需要自研调度器。通过自研调度器，腾讯在2014年让Hadoop单集群规模达到8800台，目前超过4万台。解决完离线规模的问题以后，腾讯大数据团队再度面临解决在线资源问题。他们需要实现在线平台和离线平台的混合部署，这个过程需要更好的资源隔离，并且需要容器具备虚拟机一样的隔离能力。同时，还要获得在线业务的优先调度能力，以提高在线资源率。

在数据采集方面，腾讯大数据团队在开始阶段主要引入和使用开源软件，经常会出现数据重复和数据丢包问题，后来自研了TubeMQ来解决，从2013年到目前，该平台数据规模从百亿到35万亿，翻了几千倍。10万亿规模的数据消费存在延时问题，TubeMQ要在如此大规模之下达到平均5毫秒的延时要求，他们采取软硬结合的技术来解决。

在数据处理方面，腾讯要以毫秒级的速度对数据中心里分布在不同的国家、不同的存储系统、不同的集群的异构数据进行快速处理，漂移计算SuperSQL解决方案应运而生。SuperSQL通过智能CBO优化器（基于成本的优化），将计算下推到分布在各地的异构数据源，实现高效的异构数据分析，使得数据分析过程的整个性能表现比传统处理方式高出26倍，特别是针对海量数据情况下，这样的解决方案优势也就越发明显。

最后的难点，是腾讯面临着万亿规模的大数据训练需求。最开始，他们的数据训练需求来源于广告业务，他们使用Spark来构建数据训练体系，但只能支持千万级别维度的训练。因此他们自研高性能的机器学习平台Angel来解决，从最开始Anlge支持十亿维度，逐步提升到千亿。目前，Angel平台的训练量级已经从千亿扩增到万亿。

10年间，走过的坑有多深，只有腾讯大数据团队知晓。而他们，把这些都搬上云，同时，他们从2014年起就对外开源，希望为同类厂商及广大开发者提供可行性的解决方案。

踩过的坑，别人就别再踩了

蒋杰称，腾讯大数据平台的底层技术本源自于开源，通过发展、迭代，再以开源的方式回馈社区是最好的选择。

目前，腾讯云已经提供了对外开放的能力，其中包括存储网络、数据库到上层整个大数据平台、机器学习平台，到上层服务于SAAS、语音NLP的整个体系。通过云上的产品，企业可以在没有专业大数据和AI人才的前提下进行大数据的各项分析。

雷锋网了解到，2014年，腾讯的第一代开发计算平台TDW开源，到2017年第三代的计算平台Angel也已经开源，该平台已经捐给Linux基金会。到今年9月份，腾讯开源了实时数据采集平台TubeMQ，并将其捐献给Apache基金会。

会议当天，蒋杰宣布，资源管理容器平台TKE和分布式数据库TBase开源，随着在大数据开源领域的开源逐步加速，腾讯正在成为中国大数据领域开源最全面的厂商之一。

标签：

从引进到自研再到开源融合，这10年腾讯大数据平台经历了什么

从引进到自研再到开源融合，这10年腾讯大数据平台经历了什么的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

从引进到自研再到开源融合，这10年腾讯大数据平台经历了什么

本文作者的其他文章

从引进到自研再到开源融合，这10年腾讯大数据平台经历了什么的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

从引进到自研再到开源融合，这10年腾讯大数据平台经历了什么的评论 (共条)