欢迎光临散文网 会员登陆 & 注册

程序员最头疼的那件事:数据系统迁移,终于有救了!

2023-03-29 08:23 作者:公子龙龙龙  | 我要投稿

当了这么多年程序员了,大大小小公司都待过,各方面的能力经验都已经积累一些了,但每当遇到系统数据迁移之类的事情,还是非常头疼,思来想去,根源还是基建上缺乏完整易用的迁移能力。

熬夜加班迁移系统的时候,经常手撸一些工具代码,不同系统组件之间的串联也要写很多代码进行串接,效率低到怀疑人生,那些时间,加班是家常便饭,发际线也往后移了几厘米,再到后来,一听到信息系统迁移之类的活,就直摇头,实在没办法,才会硬着头皮上。

本以为这类事情一直会这么痛苦,然后,最近在浏览最新一期《腾讯云工具指南》时,发现系统迁移这件事,竟然能够顺滑的超乎自己的想象。

1.

来看一个真实的案例,这个项目是某股份制银行和腾讯云共同推进的一个大数据创新合作项目。我们要看看在国产软硬件环境下,采用云原生数据湖架构能否满足兴业银行接下来3到5年的数字化发展需求。同时,我们还要比较这个新架构是否比之前的系统更有弹性、性能更高,以及总体成本更低。

经常做系统迁移的同学很快会发现,这里面有几类常见的挑战:多个大数据集群之间的数据迁移成本很高,而且数据更新的速度不够灵活。同时,各种大数据工具之间难以整合,对象存储的读写效率较低。还有就是,计算资源的调整和隔离也存在一定困难。

遇到这种情况,腾讯云原生大数据平台就发挥出很多作用了,来看看核心优势:

  1. 引入对象存储组件来适应更广泛的数据文件格式,构建具有更广泛存储能力的数据湖平台

  2. 引入数据编排组件衔接文件存储、对象存储等各位文件系统,构建统一数据访问接口

  3. 容器化大数据查询引擎组件,构建弹性、高可用、云化计算层

  4. 构建虚拟化查询平台,提供无感知多数据源交互性查询系统,提升平台融合查询能力

针对这次数据系统迁移任务,腾讯云大数据平台通过创新性地运用Alluxio、Iceberg、SuperSQL等大数据能力组件,构建了新一代国产化存算分离数据湖架构,并实现了组件国产化适配、近实时数据湖、分布式缓存加速、统一数据编排、弹性计算和联邦查询等特性。这些特点都有助于解决系统迁移中的挑战,使整个过程更加顺利。

2.

因为有些读者并不熟悉,这里我们介绍下腾讯的云原生大数据平台,这张图是它的整体架构图:

平台的特性,从需求角度思考,每一个都是命中用户的实际业务痛点:

  1. 国产化:大数据平台及其技术组件需全面支持国产化生态

  2. 云数一体化:容器化大数据计算查询引擎组件,构建弹性、高可用、云化计算层

  3. 存算分离化:将存储与计算分离在不同集群中,分别提升存储和计算的弹性,为后续爆发式数据应用提供可线性增长架构支持

  4. 湖仓湖仓化:将数据仓库和数据湖进行结合,实现统一数据存储、统一数据计算和统一数据访问的数据湖仓

  5. 融合计算化:引入联邦查询技术,实现跨数据源、跨执行引擎交互式数据访问方式为数据中台数据大融合提供技术支撑

  6. 数据敏捷化:基于DataOps数据管理方法,构建一站式数据集成,开发、治理和运营平台,实现批流一体化敏捷数据服务

在学习和使用部分功能后,我的整体感受是,这个大数据平台的表现相当不错。它紧跟国产化的潮流,支持国产化生态,表现出对国家战略的积极响应。云数一体化方面的设计,让计算层具有更好的弹性和高可用性,为用户带来便利。

存算分离化策略在不同集群中处理存储和计算,为数据应用提供了可扩展性。同时,它还成功实现了数据湖与数据仓库的结合,让统一的数据存储、计算和访问变得更简单。

引入联邦查询技术让数据融合变得更轻松,有助于提升整体数据处理能力。另外,基于DataOps的数据敏捷化管理,让批流一体化的数据服务更加迅速高效。总体来说,这个大数据平台具有很多优点,值得关注和尝试。

3.

再来看一个头部基金使用腾讯云原生大数据平台进行数据系统迁移的案例,这个项目最终也是取得了非常不错的结果。

客户亟待实现大数据基础设施的全面国产化,以取代现有的CDH大数据平台,另一个难题是公司内部多源异构数据尚未成功整合为一个统一的归集库。而且,现有的CDH大数据平台架构过时,其存储和计算组件的功能及性能难以适应日益增长的业务需求。

同时,还得满足一些硬性要求,要求迁移时间短,半年时间完成CDH平滑迁移;性能提升要求高,需要从原来6小时跑批缩短到3小时内。

而这些需求点,腾讯云原生的大数据平台,长期积累的技术能力是完全能够满足的,其Spark性能提升,对比CDH版本提升2倍以上,并且融合Dataops敏捷开发能力,降本增效,此外,也全面兼容CDH大数据平台,特别是安全及Hive事务性能力。

于是,在预期的时间内,工程师们利用大数据平台和工具,成功搭建了TBDS大数据平台,并在芯片和操作系统上完成了完整链路的国产化适配。平稳地迁移了Hdfs、Hive、Hbase、Impala等数据和业务逻辑,在短短2个月内实现了顺利割接上线。同时,还顺利迁移了Azkaban调度任务,有效降低了整个改造过程的成本。

这项工作在我看来,是非常出色的。它成功地打破了内部数据孤岛,将全域数据汇聚在一起,这对于提高数据利用效率和实现信息共享来说是相当重要的。这个平台实现了国产化落地,满足了自主可控的需求。这对于保障国家数据安全和响应国家政策来说,显得尤为关键。

最后,通过融合TBDS高版本大数据生态组件,平台提升了存算性能,顺利完成了CDH数据平滑迁移。这无疑为用户带来了极大的便利,同时也展示了平台的强大实力。

4.

写了这么多,也做点简单的总结,腾讯云原生大数据平台真的是一个一直在路上、不断突破自我的产品。它在方向选择上非常正确,在国产化方面表现出色,积极响应国家战略,全面支持国产化生态,在如今的国际形势下,我们需要更多这样的属于自己的可靠的技术能力。

从技术难度来看,腾讯云原生大数据平台在面对复杂的数据处理和分析场景时,依然能保持稳定高效的表现。其技术深度也是相当让人敬佩的,整合了许多先进的技术,如容器化、联邦查询等,让数据处理变得更加智能和高效。

作为商业产品,生存很重要,在不断的实战中去直面用户的痛点、积累最宝贵的经验,这一点目前它做的还是不错的,可以帮助企业和开发者快速搭建和部署大数据应用,提高业务发展速度。

目前大数据平台的详细案例也收录进了腾讯云出版的最新一期《腾讯云工具指南》里,这期指南探讨了国产化大背景下“信息系统迁移”场景的各种痛点和解决方案,并分享数据库、TencentOS、私有云、大数据等产品在多个大型项目迁移中的应用实战案例,感兴趣的同学可以从微 信打开这篇文章下载文档:https://mp.weixin.qq.com/s/vZ1S1MTYinvxhkHx4idDzA


程序员最头疼的那件事:数据系统迁移,终于有救了!的评论 (共 条)

分享到微博请遵守国家法律