Hadoop之HDFS文件操作

2023-05-16

摘要：Hadoop之HDFS文件操作常有两种方式，命令行方式和JavaAPI方式。本文介绍如何利用这两种方式对HDFS文件进行操作。

关键词：HDFS文件命令行 Java API

HDFS是一种分布式文件系统，为MapReduce这种框架下的海量数据分布式处理而设计。

Hadoop之HDFS文件操作常有两种方式，一种是命令行方式，即Hadoop提供了一套与Linux文件命令类似的命令行工具；另一种是JavaAPI，即利用Hadoop的Java库，采用编程的方式操作HDFS的文件。

方式一：命令行方式

Hadoop文件操作命令形式为

hadoop fs -cmd <args>

说明：cmd是具体的文件操作命令，<args>是一组数目可变的参数。

Hadoop最常用的文件操作命令，包括添加文件和目录、获取文件、删除文件等。

1 添加文件和目录

HDFS有一个默认工作目录/usr/$USER，其中$USER是你的登录用户名，作者的用户名是root。该目录不能自动创建，需要执行mkdir命令创建。

hadoop fs -mkdir /usr/root

使用Hadoop的命令put将本地文件README.txt送到HDFS。

hadoop fs -put README.txt .

注意上面这个命令最后一个参数是句点（.），这意味着把本地文件放入到默认的工作目录，该命令等价于：

hadoop fs -put README.txt /user/root

使用Hadoop的ls命令，即

hadoop fs -ls

显示结果如图1所示。

图1 hadoop 中 ls命令Demo

2 获取文件

获取文件包含两层意思，一是HDFS从本地文件中获取文件，即前面介绍的添加文件；二是本地文件从HDFS中获取文件，可以使用Hadoop的get命令。例如若本地文件没有README.txt文件，需要从HDFS中取回，可以执行如下命令。

hadoop fs -get README.txt .

或者

hadoop fs -get README.txt /usr/root/README.txt

3 删除文件

Hadoop删除文件命令为rm。例如要删除从本地文件上传的README.txt，可以执行如下命令。

hadoop fs -rm README.txt

4 检索文件

检索文件即查阅HDFS中的文件内容，可以使用hadoop中的cat命令。例如要查阅README.txt的内容，可以执行如下命令。

hadoop fs -cat README.txt

部分显示结果如图2所示

图2 hadoop中cat命令Demo

另外，hadoop的cat命令的输出也可以使用管道传递给Unix 命令的head：

hadoop fs -cat README.txt | head

Hadoop也支持tail命令查看最后一千字节。例如要查阅README.txt最后一千个字节，可以执行如下命令。

hadoop fs -tail README.txt

5查阅帮助

查阅Hadoop命令帮助，可以让我们很好地掌握和使用Hadoop的命令。我们可以执行hadoop fs 获取所用版本Hadoop的一个完整命令列别，也可以使用help来显示某个具体命令的用法及简短描述。

例如，要了解ls命令，可执行如下命令。

hadoop fs -help ls

关于hadoop命令ls的描述如图3所示。

图3 Hadoop命令ls的介绍

Resource：

1 http://www.wangluqing.com/2014/03/hadoop-hdfs-fileoperation/

2 Hadoop in Action http://www.manning.com/lam/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop之HDFS文件操作的相关文章

java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
使用 python 从 HDFS 获取文件名列表

这里是 Hadoop 菜鸟我搜索了一些有关 hadoop 和 python 入门的教程但没有取得太大成功我还不需要使用映射器和缩减器进行任何工作但这更多是一个访问问题作为Hadoop集群的一部分 HDFS 上有一堆 dat 文件
无法使用 PDI 步骤连接到 HDFS

我已经配置成功了Hadoop 2 4 in an Ubuntu 14 04 虚拟机 from a 视窗8系统 Hadoop 安装工作绝对正常而且我还可以从 Windows 浏览器查看 Namenode 附图如下所以我的主机名是 ubu
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
Curl下载到HDFS

我有这个代码 curl o fileName csv url xargs hdfs dfs moveFromLocal 1 somePath 当我执行此代码时 curl 将请求中的值放入 fileName csv 中该文件将移动到 HDF
java.io.IOException：无法获取 LocationBlock 的块长度

我正在使用 HDP 2 1 对于集群我遇到了以下异常并且 MapReduce 作业因此失败实际上我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件但我找不到任何内容 2014 11 28 00 0
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
2017 年在 OS X 上从源代码构建 Apache Hadoop

到目前为止我已经分叉了 Git 存储库 https github com apache hadoop 我一直在寻找有关如何从源代码构建的信息我尝试过以下命令 mvn package Pdist Dtar DskipTests 这导致了以
在 Hadoop 中按文件中的值排序

我有一个文件其中每行包含一个字符串然后是一个空格然后是一个数字例子 Line1 Word 2 Line2 Word1 8 Line3 Word2 1 我需要按降序对数字进行排序然后将结果放入文件中为数字分配排名所以我的输出应该
hadoop2.2.0追加文件发生AlreadyBeingCreatedException

我遇到了一个关于hadoop2 2 0追加操作的问题我通过 HDFS java API 将一些字节附加到 hdfs 文件首先如果在附加操作之前文件不存在我将创建目标文件代码如下 String fileUri hdfs hadoop
http://localhost:50070/ 的 hadoop Web UI 不起作用

命令 jps 显示以下详细信息第5144章 5464 节点管理器 5307 资源管理器 5800 Jps 显然namenode和datanode丢失了网络用户界面位于http 本地主机 50070 http localhost 5007
hive创建表的多个转义字符

我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表数据值包含单引号双引号括号等使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee
在 Amazon EMR 上使用 java 中的 hbase 时遇到问题

因此我尝试使用作为 MapReduce 步骤启动的自定义 jar 来查询 Amazon ec2 上的 hbase 集群我的 jar 在地图函数内我这样调用 Hbase public void map Text key BytesWri
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
猪参考

我正在学习 Hadoop Pig 并且我总是坚持引用元素请查找下面的示例 groupwordcount group chararray words bag of tokenTuples from line token chararray
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统

随机推荐

Abort message: ‘FORTIFY: FD_SET: file descriptor 1070 ＞= FD_SETSIZE 128‘

问题现象压力测试骁龙相机 xff0c 发现camera provicer 进程崩溃无法正常打开相机 xff0c 只有重新启动设备相关的log xff1a 03 23 08 17 08 592 15634 15634 F DEBUG s
滚动校验(Rolling Checksum)算法

滚动校验 Rolling Checksum 算法 Rsync中使用了一种滚动检验 Rolling Checksum 算法 xff0c 用于快速计算数据块的检验值它是一种弱校验算法 xff0c 采用的是Mark Adler的adler 32
Android GMS认证总结01

测试项失败项备注 GTS com google android media gts WidevineYouTubePerformanceTests testL3Cenc720P30 pass com google android per
ZYNQ 在linux 通过AXI_GPIO操作电平

在petalinux 通过AXI GPIO操作电平以zynq为例 xff0c vivado工程 xff1a axi gpio n都是选择的一位输出 xff1a 管脚约束 xff1a set property SEVERITY Warnin
FSK，PSK，ASK，BPSK调制

信号调制常用的三种基本方法是 xff1a 调幅调频和调相 1 振幅调变 xff0c 简称为调zhi幅 xff0c 通过改变输出dao信号的振幅 xff0c 来实现传送信息的目的一般在调制端输出的高频信号的幅度变化与原始信号成一定的函数关
ZYNQ移植vxworks系统

版本 xff1a ZYNQ7010 xff0c VxWorks 6 9 ZYNQ PL端有灵活性好 xff0c 资源丰富 xff0c 可反复编程速度快的优势 xff0c 通过 PS的外设并行 AXI总线外挂 PL接口 xff0c 使用 FP
OpenCV-Python 3.X: cv2.xfeatures2d 无法使用问题解决

由于专利的问题surf和sift特征已经被移到xfeatures2d里面 xff0c 这个模块需要安装opencv contrib python opencv的dnn模块可以加载深度学习模型 xff0c 但是dnn需要3 4以上 xff0c
旧款Mac开启随航(sideCar)功能

看到这个标题不得不吐槽苹果命名软硬件都可以支持但是故意让旧设备不支持这个功能真是鸡贼吐槽完毕本文参考博客 http dev zeppel eu luca SidecarCorePatch 里面是英文版的所以我总结翻译以下几点
Masonry框架源码分析

相信大多数iOS开发者对Masonry框架并不陌生本文是笔者通读Masonry的代码之后的一篇总结也希望可以帮助大家更好的理解该框架怎奈笔者才疏学浅如有遗漏或错误也欢迎大家评论区指出大家一起进步 iOS布局的演进在说Masonr
iOS面试题总结-未完待续

iOS面试总结 1 网络 HTTP协议 HyperText Transfer Protocol 的请求和响应请求请求头请求行请求体请求行指定请求方法请求路径协议版本等信息请求头描述客户端环境例如 host要请求的主机地址
Mac本地生成SSH Key 的方法

1 查看秘钥是否存在打开终端查看是否已经存在SSH密钥 xff1a cd ssh 如果没有密钥则不会有此文件夹 xff0c 有则备份删除也可以直接删除 2 生成新的秘钥命令如下 ssh keygen t rsa C 34 yourem
Charles网络抓包工具使用教程

1 前言 xff1a Charles是一款抓包修改工具 xff0c 相比起burp xff0c charles具有界面简单直观 xff0c 易于上手 xff0c 数据请求控制容易 xff0c 修改简单 xff0c 抓取数据的开始暂停方便等等
开源许可证
CocoaPods如何指定版本号

一个简单的podfile pod 39 AFNetworking 39 39 gt 1 0 39 版本号可以是1 0 xff0c 可以是1 1 xff0c 1 9 xff0c 但必须小于2 一个更简单的podfile pod 39 AFNe
ipa包上传itunes store失败

昨天打包上传ipa包遇到了故障开始以为是网络问题但是切换了各种网络之后发现这个不是网络问题我推测应该是苹果在mac上更新了什么东西换用application Loader 工具上传还是不行但是比Xcode直接上传的好处是可以看
Flutter 安装 (Mac环境)

Flutter 安装今天偶然看到一个公众号写了一篇关于Flutter 的文章感觉挺好所以就来尝试一下整个安装过程挺简单但也不是特别顺利因为我自己使用的是Mac系统所以这里所有操作都是Mac系统下的操作安装Flutter SDK
删除桌面上出现无文件名图标的方法

问题现象 xff1a 桌面上出现了无文件名及后缀的图标 xff0c 当用户是管理员模式时看不到 xff0c 当用户为user权限下能看的得见 xff08 其他权限下没试 xff09 处理方法 xff1a 1 桌面上右击属性桌面自定义桌
Hadoop之MapReduce

摘要 xff1a MapReduce是Hadoop的又一核心模块 xff0c 从MapReduce是什么 xff0c MapReduce能做什么以及MapReduce的工作机制三方面认识MapReduce 关键词 xff1a Hadoop
Linux常用命令

摘要 xff1a 采用命令行模式操控Linux系统非常重要本文总结Linux常用的命令 xff0c 包括命令的含义 xff0c 命令的用法以及命令的拓展关键词 xff1a 命令行模式 Linux常用命令给Linux系统下达命令 xff
Hadoop之HDFS文件操作

摘要 xff1a Hadoop之HDFS文件操作常有两种方式 xff0c 命令行方式和JavaAPI方式本文介绍如何利用这两种方式对HDFS文件进行操作关键词 xff1a HDFS文件命令行 Java API HDFS是一种分布式文件

Hadoop之HDFS文件操作

Hadoop之HDFS文件操作 的相关文章

随机推荐

热门标签

Hadoop之HDFS文件操作的相关文章