hadoop 文件上传 将文件上传到hadoop集群上去的命令为



文章插图
hadoop 文件上传 将文件上传到hadoop集群上去的命令为

文章插图
HDFS是一个文件系统 , 用于存储文件 , 通过统一的命名空间–目录树来定位文件;其次 , 它是分布式的 , 由很多服务器联合起来实现其功能 , 集群中的服务器有各自的角色 。
HDFS设计思想:分而治之:将大文件、大批量文件 , 分布式存放在大量服务器上 , 以便于采取分而治之的方式对海量数据进行运算分析 。?
在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,….)提供数据存储服务? 。
重点概念:文件切块 , 副本存放 , 元数据 。
HDFS重要特性:
HDFS中的文件在物理上是分块存储(block) , 块的大小可以通过配置参数(dfs.blocksize)来规定 , 默认大小在hadoop2.x版本中是128M , 老版本中是64M;HDFS文件系统会给客户端提供一个统一的抽象目录树 , 客户端通过路径来访问文件 , 形如:hdfs://namenode:port/dir-a/dir-b/file.data;目录结构及文件分块信息(元数据)的管理由namenode节点承担——-namenode是HDFS集群主节点 , 负责维护整个hdfs文件系统的目录树 , 以及每一个路径(文件)所对应的block块信息(block的id 。及所在的datanode服务器);文件的各个block的存储管理由datanode节点承担———–namenode是HDFS集群从节点 , 每一个block都可以在多个dataname上存储多个副本(副本数量也可以通过参数设置dfs.replication);
HDFS是设计成适应一次写入 , 多次读出的场景 , 且不支持文件的修改(注:适合用来做数据分析 , 并不适合用来做网盘应用 , 因为 , 不便修改 , 延迟大 , 网络开销大 , 成本太高) 。
HDFS原理篇
工作机制:
工作机制的学习主要是为加深对分布式系统的理解 , 以及增强遇到各种问题时的分析解决能力 , 形成一定的集群运维能力 。注:很多不是真正理解hadoop技术体系的人会常常觉得HDFS可用于网盘类应用 , 但实际并非如此 。要想将技术准确用在恰当的地方 , 必须对技术有深刻的理解 。
1 概述
HDFS集群分为两大角色:NameNode、DataNodeNameNode负责管理整个文件系统的元数据DataNode负责管理用户的文件数据块文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上每一个文件块可以有多个副本 , 并存放在不同的datanode上DataNode会==定期==向NameNode汇报自身所保存的文件block信息 , 而namenode则会负责保持文件的副本数量HDFS的内部工作机制对客户端保持透明 , 客户端请求访问HDFS都是通过向namenode申请来进行
2 HDFS写数据流程
客户端要向HDFS写数据 , 首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode , 然后客户端按顺序将文件逐个block传递给相应datanode , 并由接收到block的datanode负责向其他datanode复制block的副本 。
这里说明文件的切割是在客户端实现的 , 而不是NameNode 。文件的传输也是由客户端传到指定datanode上 , 副本由datanode传给其他datanode 。?
详细步骤(重要):
跟namenode通信请求上传文件 , ==namenode检查目前文件是否已存在 , 父目录是否存在==namenode返回是否可以上传client请求第一个block该传输到哪些datanode服务器上(副本)namenode返回3个datanode服务器ABC(假如副 本数为3 。优先找同机架的 , 其次不同机架 , 再其次是同机架的再一台机器 。还会根据服务器的容量 , )client请求3台datanode中的一台A上传数据==(本质上是一个RPC调用 , 建立pipeline)== , A收到请求会继续调用B , 然后B调用C , 将整个pipeline建立完成 , 逐级返回客户端client开始往A上传第一个block(先从磁盘读取数据放到一个本地内存缓存) , 以packet为单位 , A收到一个packet就会传给B , B传给C;A每传一个packet会放入一个应答队列等待应答 。当一个block传输完成之后 , client再次请求namenode上传第二个block的服务器 。
3. HDFS读数据流程
概述:
客户端将要读取的文件路径发给namenode , namenode获取文件的元信息(主要是block的存放位置信息)返回给客户端 , 客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端进行数据追加合并从而获得整个文件 。
详细步骤解析:
跟namenode通信查询元数据 , 找到文件块所在的datanoede服务器挑选一台datanode(就近原则 , 然后随机)服务器 , 请求建立socket流datanode开始发送数据(从磁盘里面读取数据放入流 , 以packet为单位来做校验)客户端以packet为单位接收 , 先在本地缓存 , 然后写入目标文件 。?
NAMENODE工作机制
学习目标:理解namenode的工作机制尤其是元数据管理机制 , 以增强对HDFS工作原理的理解 , 及培养hadoop集群运营中”性能调优”、”namenode”故障问题的分析解决能力
职责:
NAMENODE职责:负责客户端请求的响应元数据的管理(查询、修改)元数据管理:namenode对数据的管理采用了三种存储形式:内存元数据(NameSystem)磁盘元数据镜像文件(fsimage)数据操作日志文件(edits.xml)可通过日志运算出元数据元数据存储机制(重要):
A、内存中有一份完整的元数据(内存meta data)
B、磁盘有一个”准完整”的元数据镜像(fsimage)文件(在namenode的工作目录中)
?C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志(edits文件)
注:当客户端对hdfs中的文件进行新增或者修改操作 , 操作记录首先被记入edits日志文件中 , 当客户端操作完成后 , 相应的元数据会更新到内存meta.data中 。
元数据手动查看
可通过hdfs的一个工具来查看edits中的信息hdfs oev -i edits -o edits.xmlhdfs oiv -i fsimage_0000000087 -p XML -o fsimage.xml
【hadoop 文件上传 将文件上传到hadoop集群上去的命令为】inputfile: 要查看的fsimage文件
outputfile:用于保存格式化之后的文件 process: 使用什么进程解码 , XML|Web|…
?Datanode工作职责:
存储管理用户的文件块数据定期向namenode汇报自身所持有的block信息(通过心跳信息上报)(这点很重要 , 因为当集群发生某些block副本失效时 , 集群如何恢复block初始副本数量的