首页 > 美文鉴赏

大数据平台MPP与Hadoop架构分析

更新时间:2023-04-24 10:08:02 阅读：评论：0

2023年4月24日发(作者：三庙街)

大数据二年级的画平台MPP与Hadoop架构分析

1. 大数据平台MPP架构

MPP (Massively 天津大学排名 Parallel Processing)，大规模并行处理系统，这样的系统是由许多松耦合的处理单元组成的，

要注意的是这里指的是处理单元而不是处理器。每个单元内的 CPU都有自己私有的资源，如总线，内存，硬

盘等。在每个单元内都有操作系统和管理数据库的实硬笔楷书字帖例复本。这种结构最大的特点在于不共享资源。

MPP架构数据库应具有的特征：

● 任务并行执行;

● 数据分布式存储(本地化);

● 分布式计算;

● 私有资源;

● 横向扩展;

● Shared Nothing架构。

2. 大数据平台Hadoop架构

通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工

具Hive和分布式数据库Hba法医学的介绍，基本涵盖了Hadoop分布式平台的所有技术核心。

整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持，并我和我的祖国手抄报图片大全通过MR来实现对分布式并

行任务处理的程序支持。

HDFS采用主从（Master/Slave）结构模型，萝卜丝包一个HDFS集群是由一个NameNode和若干个DataNode组

成的（在最新的Hadoop2.2版本已经实现多个NameNode的配置-这也是一些大公司通过修未婚同居改hadoop源

代码实现的功能，在最新的版本中就已经实现了）。NameNode作为主服务器，管理文件系统命名空间和客

户端对文件的访问操作。DataNode管理存储的数据。HDFS支持文件形式的数据。

从内部来看，文件被分成若干个数据块，这若干个数据块存放在一组DataNode上。NameNode执行文件

系统的命名空间，如打开、关闭、重命名文件或目录等，也负责数据块到具体DataNode的映射。DataNode

负责处理文件系统客户端的文件读写，并在NameNode的统一调度下进行数据库的创建、删除和复制工作。

NameNode是所有HDFS元数据的管理者，用户数据永远不会经过NameNode。

3. 架构对比分析

Hadoop MPP

平台开放性完全开放闭源或部分开源

扩展能力高低

拥有成本低高

高（需掌握特定厂商的技术，容易

运维复杂度低（熟悉Hadoop即可）被）

系统和数据管理成本高中

应用开发维护成本高中

数据规模 PB级别部分PB

计算性能高较高

数据结构结构化、半结构化和非结构化结构化数据

多样化的工具支持复杂的数据场景

如交互式sql分析（Impala），数

据挖掘Spark，流式计算Spark

Streaming，实时查询HBa，全

场景支持文搜索Solr等仅支持SQL

综合而通滞苏润江胶囊言：

1、Hadoop 在处理非结构数据和半结构数据上具备优势,尤其适合海量数据批处理等应用需求。当然随

着 Hadoop 技术的成熟,基于 Hadoop 的即席查询技术也逐渐崭露头角。比如仿照 Dremel 的开源项目

Cloud六一儿童节文案 era Impala已经有不弱于MPP的性能。而且基于Hadoop架构的CDH平台提供了多样化的数据分

析包括实时计算和历史计算，涉及数据查询、数据统计、数据分析（挖掘、学习）、文本检索等。且

Hadoop天生具有低成本包括硬件成本，软件成本，开发成本，运维成本等的优势，对于超大数据集也能够

很好的支持如PB或以上，CDH的扩展能力也是相当优秀，Cloudera在国外有数个上千节点的项目，在国

内也有银联近300个节点的案例。

2、MPP 适合替代现有关系数据结构下（纯SQL）的大数据处理,具有较高的效率,但其在大规模集群(超

过 100 个节点)下的可用性还有待证实。

本文发布于:2023-04-24 10:08:02，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/89/845810.html

上一篇：大学生在校期间个人总结

下一篇：学生上课考勤的管理制度（精选11篇）

标签：cdh大数据平台

留言与评论（共有 0 条评论）