0%

The Hadoop Distributed File System

Hadoop的重要特点是数据在数千节点上分区存储和计算,并行执行应用程序的计算。

HDFS和其他分布式文件系统(PVFS、Lustre、GFS)一样,分开存储文件系统元信息(NameNode)和应用程序数据(DataNodes),服务器之间通过基于TCP的协议通信。

DataNodes没有和PVFS一样使用数据保护机制(如RAID)来使文件持久存放,而是像GFS一样在多个DataNode冗余存放文件内容来实现可靠性。保证持久存放的同时也可以加速传输数据。

img

HDFS总体上采用了master/slave架构,主要由以下几个组件构成:Client、NameNode、Secondary NameNode和DataNode。
NameNode管理文件系统的命名空间,维护文件系统树及整棵树内所有的文件和目录。这些信息以两个文件形式永久保存在本地磁盘上:命名空间镜像文件fsimage和编辑日志edits文件。NameNode也记录着每个文件中各个块所在的数据节点信息,但它并不永久保存块的位置信息,因为这些信息会在系统启动时由数据节点重建。
Secondary NameNode最重要的任务并不是为NameNode元数据进行热备份,而是定期合并fsimage和edits日志,并传输给NameNode。这里需要注意的是,为了减少NameNode的压力,NameNode并不会自己合并fsimage和edits,而是将文件存储到磁盘上,交由Secondary NameNode完成。
DataNode是文件系统的工作节点。它们根据需要存储并检索数据块(受客户端或NameNode调度),并且定期向NameNode发送它们所存储的块的列表。
客户端(client)代表用户通过与NameNode和DataNode交互来访问整个文件系统。客户端提供一个类似于POSIX的文件系统接口,因此用户在编程时无需知道NameNode和DataNode也可以实现其功能。

NameNode

HDFS命名空间是文件和目录的层级结构。文件和目录在NameNode上通过inodes表示,inodes记录了各种属性如:权限、修改和访问次数、命名空间、磁盘空间配额。

DataNodes

DataNode中的每个块副本通过两个原生文件来表示,一个包含数据本身,另一个是文件元数据(包括块数据校验和、块生成戳 generation stamp)。数据文件的大小等于实际块长度,不需要额外空间舍入到传统文件系统中的名义块大小,因此如果块是半满的,就在本地占一半的空间。

HDFS Client

用户应用程序通过HDFS客户端访问文件系统,这是一个程序库,开放了HDFS文件系统接口。

Image and Journal

命名空间的image就是文件系统的元数据,将应用数据以目录和文件的形式组织。一条被写入的image持久化记录叫做checkpoint。journal是提前写入的提交日志,是必须被持久化的文件系统修改情况。对于每个客户端启动的事务,所做的修改被记录在journal中,journal文件会在更改提交到HDFS客户端前刷新和同步。

CheckpointNode

HDFS的NameNode除了服务客户端之外,还可以扮演另外两个角色之一,即CheckpointNode或BackupNode,这在启动时指定。

BackupNode

和CHeckpointNode类似,BackupNode也有能力创建定期检查点,但除此之外还在内存中维护文件系统命名空间最新的image,这总是和NameNode的状态一起同步

Upgrades, File System Snapshots

在软件升级的时候,由于软件bug或人犯错导致系统崩溃的可能性会增加。在HDFS中创建快照的目的就是在升级期间,使对保存在系统中数据的潜在损伤最小化。

2.2 论文核心算法

The Hadoop Distributed File System (Yahoo!)笔记 - 知乎

HDFS(Hadoop Distributed File System)简介_Bob Liu的…_…

这两个笔记我觉得写的挺好的,可以看看。

当应用程序读一个文件:

  1. HDFS客户端要求NameNode提供托管文件块副本的DataNode列表,
  2. 直接联系DataNode,并请求需要传送的块

当客户端写文件:

  1. 要求NameNode选择几个DataNode托管第一个文件块的副本
  2. 客户端组织node-to-node流水线,并传送数据
  3. 当第一个块填入后,客户端要求新的DataNodes来托管下一个块的副本
  4. 组织新的流水线,传送数据,每次倾向选择不同的DataNodes

客户端、NameNode、DataNodes的交互如下图:

img

客户端通过把路径传给NameNode来创建一个新文件,NameNode为文件的每个块返回DataNode列表来托管块的副本。客户端然后通过流水线把数据传给选定的DataNodes,这些DataNodes最终将创建块副本的确认信息告诉NameNode。

一个HDFS文件是由块组成的。需要新块时,NameNode会分配一个具有unique block ID的块,并且决策出一个DataNodes列表来处理块副本。DataNodes组成一个管道,其顺序使客户端到最后一个DataNode的总网络距离最小。字节作为分组序列(sequence of packets)被推入流水线。应用程序在客户端写入第一个缓冲区,填充完一个缓冲区(通常64KB)后,数据被推送到流水线。在接收到先前数据包的确认信息之前,可以将下一个分组推送到流水线。未完成分组的数量受客户端未完成分组的窗口大小的限制。

在数据被写入HDFS文件后,HDFS不保证数据对新reader可见,直到文件被关闭。如果用户应用需要这种可见性保证,可以显式调用 hflush 操作。这样当前的分组会立即推送到流水线,hflush操作会等待所有的DataNode确认已经成功传输了分组。所有之前写入的数据就会理所应当地对reader可见。

img

如果没有错误发生,block construction会像上图一样发生。图2展示了一个有三个DataNodes的管道和5个分组的块。粗线表示数据分组,虚线表示确认信息,细线表示设置和关闭流水线的控制信息。垂直线表示客户端和三个DataNode的活动,时间从上到下依次进行。t0到t1是流水线设置阶段。t1到t2是数据流阶段,t1是首次传输分组的时间,t2是收到最后一个分组确认信息的时间。这里hflush操作将传输第二个分组。hflush指示数据分组传输不是一个分离的操作。t2到t3是流水线关闭阶段。


2021/7

欢迎关注我的其它发布渠道