科技前沿
Science and Technology Frontier
编辑:苏加友E-mail: ************
科技前沿
Science and Technology Frontier
图1 存算解耦合大数据平台支持的数据库模型
图2 存算解耦合大数据平台架构
科技前沿
Science and Technology Frontier
3.1.1 统一SQL编译器
钟易轩
计算引擎层之上是产品和用户、应用交互的接口层。SQL编译器Transwarp Quark确保平台中的各个数据库产品遵从一致的SQL规范。客户即使切换了业务场景,切换了数据库,也不用担忧开发接口和编程语言不兼容的问题。使用统一的 SQL开发的代码可移植性强、技术对接成本低、开发人员学习成本低,能更好地应对复杂多变的业务需求。
3.1.2 统一分布式计算引擎
存算解耦合大数据平台使用了自研的统一分布式计算引擎 Transwarp Nucleon (核子)。传统单一模型数据库,每种存储都会适配自己的计算引擎。由于计算存储高度耦合,接口各自为政,很难实现数据共通和跨库关联。 TDH 8.0 架构中不同的存储都使用统一的计算引擎,计算能根据不同的存储自动匹配对应的高性能算法,无需用户人工干预,从而实现便捷的跨库关联,避免了不必要的数据导入导出。
3.1.3 分布式文件系统
存算解耦合大数据平台分布式文件系统 TDFS(Transwarp Distrubited File System)支持数十亿文件,并提供单一的命名空间,使用简单,不再受限于 HDFS 的 Namenode 的元数据规模瓶颈。 基于 Raft 协议提供强一致性和高可用方案,不依赖外部存储(JournalNode/NFS)和分布式协调组件(Zookeeper)。支持静态与动态分区方案,提供高度的可扩展性。 支持远程数据复制,提供跨集群的数据同步与灾备解决方案。TDFS 兼容 Hadoop API,可以无缝替换 HDFS。
3.1.4 分布式数据管理系统
在存储管理层开发了统一的分布式数据管理系统 TDDMS(Transwarp Distributed Data Management System)。这个系统为不同存储引擎提供公共的存储管理服务,包括:
●保障数据均匀分布和负载均衡等数据分片 服务;
● 多副本管理和数据一致性等数据高可用服务;
● 数据平滑扩容缩容等服务。3.2 弹性调度
蚯蚓用什么呼吸3.2.1 云原生操作系统
云原生操作系统(如图3所示)基于容器技术和容器集群管理系统 Kubernetes[12] 构建。系统提供了调度服务、网络服务、存储服务、负载管理、GPU 管理以及多云管理等核心模块,满足大数据、人工智能以及分布式存储等有状态工作负载在编排、弹性、隔离、异构计算、多云等方面的多种需求。
传统的大数据架构使用 Yarn 做资源调度,运行在物理机上。随着业务场景的变化以及业务量的大幅增长,这种架构暴露出以下两个问题。
● 按需弹性能力不足
大数据业务有时间上的潮汐效应,实时计算或者 OLTP 业务高峰往往发生在白天,到了夜晚会处于低谷,而离线计算或者 OLAP 业务高峰则在夜晚,传统的架构因缺乏弹性能力,在资源编排方面无法快速适应这种变化。
● 资源利用率低
大数据计算按业务场景分为实时流处理和非实时批处理,当这两种业务场景同时存在时,传统的架构通常需要准备两套系统去支撑,不但资源利用率低,且成本高昂。
为了解决大数据应用中存在的问题, 云原生操作系统提供了基于容器的编排技术。相比于在物理上机分配资源,容器化能够提供更加细粒度的资源控制,对于大数据这样的应用场景,能够大幅提升资源利用率。
另外,大数据应用在资源调度方面有额外的诉求,计算单元全集要么全部调度成功,要么全部不做调度,如果存在中间状态,则会出现只占用资源
图3
云原生操作系统架构
科技前沿
Science and Technology Frontier
安稳图4 Venus调度架构
3.3 关键特性总结
基于存算解耦合实现的多模型大数据平台所具
备的关键特性如表3所示。
科技前沿
疏通经络能减肥吗Science and Technology Frontier
横纹
化解决方案,为众多客户提供超强数据处理能力,在金融、政府、能源、运营商、交通等各行各业都有着广泛的应用。
以金融行业为例,平台提供了数据仓库、数据湖、数据管控平台、精准营销平台、历史数据平台、实时风控平台等多种场景服务。
随着银行业务的快速创新,银行对数据库产品的需求也日益多样,包括:
(1)最常用的交易型数据库;
(2)支持固定指标、固定报表批处理的数据仓库产品;
(3)满足业务创新、灵活分析的数据集市产品;
(4)需要低延时获取结果的实时流处理产品;
情人节送(5)通过多表多维度关联关系,刻画用户画像、建立贷款风险模型所需的图数据库产品。
传统的方法是为每一类场景配备专门的数据库产品,复杂的业务系统需要几个甚至几十个数据库系统工作。由于各个产品的开发接口、运维方法各不相同,这种混合部署的方式,导致开发学习和日常的运维成本都很高。
退团申请书基于存算解耦合实现的多模型大数据平台可以使用一个统一的集群来管理运维多个数据库产品,大大
降低了运维成本。各数据库之间,可实现数据直接关联分析,避免了导入导出带来的数据冗余。统一的SQL接口,降低了开发人员的学习成本,提升了开发代码的可移植性,提高了工作效率。使用该平台,总交付成本更低,平台总体性价比更高。
在经历了实际应用场景的不断打磨完善之后,存算解耦合技术支撑的多模型大数据平台已经能够很好地解决当前大数据行业应用的痛点,特别是对于多模的资源弹性需求起到了“靶向治疗”的效果。另外大数据行业发展日新月异,利用该平台的高可扩展性能从容地应对应用需求的变化。
5 结语
数字化时代对大数据技术以及软件硬件提供的支持能力的需求,已经和几十年前不可同日而语。TDH8.0独创的五层存算解耦技术架构,在追求极致性能的同时,提供易开发、易运维的一站式服务,能够支持纷繁复杂的用户场景。随着行业应用数据呈指数级的增长,对多模型数据处理性能和实时性的要求也越来越高,业界也在尝试探索成本可控的高性能低时延解决方案。TDH 8.0 平台基于存算解耦合的实现,在解决多模和资源弹性方面优势明显,已经获得了实际应用的检验。相信能在未来,TDH 8.0可以更好地以数据赋能各行各业用户,完成
数字化转型。
参考文献
[1] BORTHAKUR D. HDFS Architecture Guide[EB/OL].
[2021-04-03]. hadoop.apache/docs/
hdfs/current/hdfs_design.html.
[2] JEFFREY D , SANJAY G. MapReduce: Simplified Data
Processing on Large Clusters[C]//6th Symposium on Operating System Design and Implementation OSDI 2004. San Francisco: OSDI 2014: 137-150.
[3] KONSTANTIN. Shvachko The Hadoop Distributed
File System[C]//IEEE 26th Symposium on Mass Storage Systems and Technologies, MSST 2010. Washington DC: IEEE, 2010: 1-10.
[4] SANJAY G, HOWARD G, SHUN-TAK L. The Google
File System[C]// Proceedings of the ACM SIGOPS 22nd Symposium on Operating Systems Principles. Montana: ACM SIGOPS, 2003: 29-43.
[5] ARANGODB. Three major NoSQL data models in
one open-source databa[EB/OL].[2021-04-03]. /.
[6] JAMES C. With Modules, Redis Labs turns
Redis into a multi-model databa[EB/OL].独生子女费发放新规定
[2021-04-03].https: ///report-
short?entityId=89003.
[7] DAVID J, DEWITT, ALAN H, et al. Nehme,
Split query processing in polyba[EB/OL].