HDFS用户指南(Hdfs ur guide)0.21 中文版

更新时间:2023-07-12 23:11:18 阅读: 评论:0

HDFS用户指南
(HDFS Urs Guide)

就偏旁1目的
此文档是用户使用Hadoop集群或普通单机分布式文件存储系统(HDFS)开展工作的起点,尽管HDFS被设计成适应于许多环境,有用的HDFS知识能大大帮助我们优化配置及诊断具体集群的问题。
2概述
HDFS是Hadoop应用使用的主要分布式存储器,HDFS集群主要由管理文件系统元数据的NameNode(名称节点)和存储实际数据的DataNode(数据节点)组成。HDFS架构指南详细途述了HDFS。这个用户指南主要针对活动和管理的HDFS集群用户。HDFS架构图描述了NameNode、DataNode和客户端基本的相互作用。客户端通过NameNode取得文件的元数据和修改(状态或记录)然后实际执行I/O操作直接使用DataNode。
以下列出一些可能是许多用户感兴趣的特性。
充电器原理图
Hadoop包括HDFS是比较合适的使用(低要求)硬件支撑的分布式存储和分布式处理系统。它允许故障、可升级并非常易于扩展。MapReduce(映射化简),众所周知的简单并适用的大型分布式应用,是Hadoop的主要部分。
HDFS在默认配置上拥有高可配性较好的适用于多数设备。多数情况下只需要为大型集群设定配置。
Hadoop由JAVA语言编写而成并支持所有主流平台。
关于乡村的作文Hadoop支持“类Shell”命令与HDFS直接交互。
NameNode和DataNode构建了Web服务为查看集群的状态提供便利。
新的特性和更改都有规律地遵行HDFS。以下是HDFS有用特性列表:
文件权限和安全。
爱国主义教育内容
机架感知(Rack awareness):在安排任务和分配存储空间时考虑到节点的物理位置。
安全模式(Safemode):运维的管理模式。
文件诊断(FSCK):文件系统的诊断功能,用来查找丢失的文件或块。
重新权衡(Rebalancer):用以平衡数据不均衡分布在DataNode时使用的工具。
升级和回滚:软件升级后因为某些未知的问题有可能需要回滚到HDFS在升级之前的状态。
Secondary NameNode【不推荐的】:定期生成Namespace的Checkpoint,并帮助NameNode上的包函HDFS修改日志的文件维持在指定大小以内。因为已经不推荐使用了,可用Checkpoint node替换。
Checkpoint node:定期生成Namespace的Checkpoint,并帮助降低NameNode上的包函HDFS修改记录的日志文件的大小。填补替换先前的Secondary NameNode角色。NameNode允许多个Checkpoint节点同时存在,但必须保证系统没有注册Backup Node。
双子座性格男生Backup Node:Checkpoint节点的扩展。除了创建Checkpoint它同样从NameNode接收一个Edits流,并在自己的内存中维持一个Namespace的复本,它总是在同步活动的NameNode的Namespace的状态。
3前提
以下文档描述了如何安装并创建一个Hadoop集群:高收益保本理财
单一节点安装提供给处女用户。
集群安装提供给大型分布式集群。
余下的文档假设用户能创建并运行至少拥有一个DataNode的HDFS。就本文档的目的,无论在NameNode还是DataNode都能运行在同一物理机器上。
4Web界面
NameNode和DataNode各自运行一个内部Web服务为了显示集群的当前基本状态。使用默认配置,名称空间的首页是名称空间节点:50070/。它列出集群中的DataNode以及集
群的基本统计数据。Web界面同样能用于通过浏览器来浏览文件系统(使用NameNode首页的“Brow the file system”链接)。
5Shell命令
太监从哪个朝代出现的Hadoop包括若干类Shell命令可用于HDFS文件和其它被Hadoop支持的文件系统的交互。运行 “bin/hdfs dfs –help”显示Hadoop shell支持的各种操作(命令),此外,运行“bin/hdfs dfs –help 命令名称”显示命令的更多详细帮助。这些命令支持大部分常规文件系统操作,如复制文件,更改文件权限等等,其同样也支持一些HDFS特定操作,如更改文件的备份参数。文件系统命令行指南查看更多信息。收获的作文
5.1分布式文件系统管理命令(DFSAdmin Command)
“bin/hadoop dfsadmin”命令支持一些HDFS管理相关的操作。“bin/hadoop dfsadmin -help”命令列出所有当前支持的操作,例如:
-report:报告HDFS的基本统计数据。许多信息同样存在于NameNode的首页上。
-safemode:虽然通常不是必须的,但是管理员能手动进入或离开安全模式。
-finalizeUpgrade:移除集群最后一次升级前的备份。
-refreshNodes:更新允许连接到NameNode的主机集合。重新读取配置文件更新dfs.hosts和lude的值,并读取这些文件中的全部主机名称。每一个没被定义在dfs.hosts但是定义在lude的对象被退役。每一个定义在dfs.hosts并同时定义在lude的被标记为退役的对象被停止。所有未出现在这两个列表中的对象都被退役。
-printTopology:打印集群的拓扑,显示通过NameNode查看机架和DataNode的网络树结构。
dfsadmin的具体使用方法
6Secondary NameNode
提示
NameNode已经过时,考虑使用Checkpoint Node或Backup Node替代之。
NameNode以日志的形式将文件系统的修改存储在本地文件系统的文件中,当NameNode启动时,它从fsimage(映像文件)中读取HDFS的状态信息,并且同时应用来源于Edits日志文件中的编辑信息,这时它将写一个新的HDFS状态到fsimage,并使用一个空的Edits文件开始正常操作。由于NameNode合并fsimage和Edits文件只在启动时进行,在业务繁忙的集群上,Edits日志文件可能随着时间的推移变得非常大,大的Edits文件的另一个副作用是造成下一次重启NameNode用时过长。
Secondary NameNode定期地合并fsimage和Edits日志文件,并保持Edits日志文件的大小在一个上限值内,由于它的内存需求与NameNode的一致,所以它通常运行在NameNode以外的一台机器上。集群节点中的第二NameNode由 “conf/masters”文件指定,用“bin/start-dfs.sh”命令启动之。
在Secondary NameNode上打开Checkpoint进程由2个配置参数控制。
fs.checkpoint.period,默认设置为1小时,指定连续2次创建Checkpoint的最大时间间隔。
fs.checkpoint.size,默认设置为64MB,当编辑日志大小到达该设置值,即使创建Checkpoint的最大时间间隔未到也强制促其执行创建Checkpoint。
Secondary NameNode以NameNode目录结构的相同方式存储最近的Checkpoint,所以,如果有必要,其通常时刻准备好被NameNode读取Checkpoint文件的。
Secondary NameNode的具体操作用法
7 CheckPoint Node
NameNode持久保存Namespace使用2个文件:fsimage(最新的Namespace的Checkpoint)和Edits(从Checkpoint创建之后命名空间的修改记录)。当NameNode启动时,它会合并fsimage和Edits日志以提供最新的文件系统元数据视图。NameNode用新的HDFS状态覆盖fsimage并开始一个新的Edits日志。
Checkpoint节点周期性的创建Namespace的Checkpoint。它从活动的NameNode下载fsimage和Edits日志,在本地合并,并且上传新的fsimage到活动的NameNode。Checkpoint节点通常运行在NameNode之外的不同机器上也是因为它对内存的要求与Nam
eNode一致。Checkpoint通过“bin/hdfs namenode -checkpoint”命令在配置文件中指定的节点上启动。

本文发布于:2023-07-12 23:11:18,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1079045.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文件   集群   日志   使用   节点
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图