HDFS 自定义实现函数将文件追加到末尾的问题

2023-05-16

HDFS 自定义实现函数将文件追加到末尾的问题：

在这里插入图片描述

一、实验环境：

Ubuntu16.04
Hadoop2.7.1 伪分布式（只有一个DN）
Eclipse

二、解决方案

Java代码：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import java.io.*;

public class HDFSApi {
    /**
     * 判断路径是否存在
     */
    public static boolean test(Configuration conf, String path) throws IOException {
        FileSystem fs = FileSystem.get(conf);
        return fs.exists(new Path(path));
    }

    /**
     * 复制文件到指定路径
     * 若路径已存在，则进行覆盖
     */
    public static void copyFromLocalFile(Configuration conf, String localFilePath, String remoteFilePath) throws IOException {
        FileSystem fs = FileSystem.get(conf);
        Path localPath = new Path(localFilePath);
        Path remotePath = new Path(remoteFilePath);
        /* fs.copyFromLocalFile 第一个参数表示是否删除源文件，第二个参数表示是否覆盖 */
        fs.copyFromLocalFile(false, true, localPath, remotePath);
        fs.close();
    }

    /**
     * 追加文件内容
     */
    public static void appendToFile(Configuration conf, String localFilePath, String remoteFilePath) throws IOException {
        FileSystem fs = FileSystem.get(conf);
        Path remotePath = new Path(remoteFilePath);
        /* 创建一个文件读入流 */
        FileInputStream in = new FileInputStream(localFilePath);
        /* 创建一个文件输出流，输出的内容将追加到文件末尾 */
        FSDataOutputStream out = fs.append(remotePath);
        /* 读写文件内容 */
        byte[] data = new byte[1024];
        int read = -1;
        while ( (read = in.read(data)) > 0 ) {
            out.write(data, 0, read);
        }
        out.close();
        in.close();
        fs.close();
    }

    /**
     * 主函数
     */
    public static void main(String[] args) {
        Configuration conf = new Configuration();
    	conf.set("fs.default.name","hdfs://localhost:9000");
        String localFilePath = "/home/hadoop/text.txt";    // 本地路径
        String remoteFilePath = "/user/hadoop/text.txt";    // HDFS路径
        String choice = "append";    // 若文件存在则追加到文件末尾
//      String choice = "overwrite";    // 若文件存在则覆盖

        try {
            /* 判断文件是否存在 */
            Boolean fileExists = false;
            if (HDFSApi.test(conf, remoteFilePath)) {
                fileExists = true;
                System.out.println(remoteFilePath + " 已存在.");
            } else {
                System.out.println(remoteFilePath + " 不存在.");
            }
            /* 进行处理 */
            if ( !fileExists) { // 文件不存在，则上传
                HDFSApi.copyFromLocalFile(conf, localFilePath, remoteFilePath);
                System.out.println(localFilePath + " 已上传至 " + remoteFilePath);
            } else if ( choice.equals("overwrite") ) {    // 选择覆盖
                HDFSApi.copyFromLocalFile(conf, localFilePath, remoteFilePath);
                System.out.println(localFilePath + " 已覆盖 " + remoteFilePath);
            } else if ( choice.equals("append") ) {   // 选择追加
                HDFSApi.appendToFile(conf, localFilePath, remoteFilePath);
                System.out.println(localFilePath + " 已追加至 " + remoteFilePath);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

报错信息：Failed to replace a bad datanode the existing pipeline to no more good datanodes begin g available to try.

在这里插入图片描述

直观判定为文件在pineline传输中DN被认为是坏的数据节点，需要新的好的数据节点来确保文件在pineline中传输正常。

官网说明：hdfs-default.xml配置文件

如果写入管道中存在数据节点/网络故障，DFSClient 将尝试从管道中删除失败的数据节点，然后继续使用其余数据节点进行写入。因此，管道中的数据节点数会减少。该功能是向管道添加新的数据节点。这是用于启用/禁用该功能的站点范围的属性(dfs.client.block.write.replace-datanode-on-failure.policy)。当集群大小非常小时（例如 3 个节点或更少），集群管理员可能希望在默认配置文件中将策略设置为 NEVER 或禁用此功能。否则，用户可能会遇到异常高的管道故障率，因为无法找到新的数据节点进行替换。

而且，仅当 dfs.client.block.write.replace-datanode-on-failure.enable 的值为 true 时，才使用此属性。ALWAYS：删除现有数据节点时，始终添加新的数据节点。NEVER：从不添加新的数据节点。默认值：让 r 作为复制编号。设 n 为现有数据节点的数量。仅当 r 大于或等于 3 且（1） floor（r/2）大于或等于 n 时，才添加新的数据节点;或（2） r 大于 n，并且块被hflushed/appended。

在这里插入图片描述

方法一：在Java代码main函数中加入以下两行代码：

conf.set("dfs.client.block.write.replace-datanode-on-failure.policy","NEVER"); 
conf.set("dfs.client.block.write.replace-datanode-on-failure.enable","true");

方法二：在hdfs-site.xml中加入以下代码：

<property>
	<name>dfs.client.block.write.replace-datanode-on-failure.policy</name>
	<value>NEVER</value>
</property>

三、注意点

一般来说，如果集群中DN个数小于等于3 （本机器采用伪分布式模式，只有一个DN，但是为了测试方便，直接开启即可）都不建议开启

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HDFS

自定义实现函数将文件追加到末尾的问题

HDFS 自定义实现函数将文件追加到末尾的问题的相关文章

使用 avro-tools 连接 Avro 文件

我正在尝试将 avro 文件合并为一个大文件问题是concat命令不接受通配符 hadoop jar avro tools jar concat input part output bigfile avro I get 线程 main 中
无法启动 CDH4 辅助名称节点：NameNode 地址的 URI 无效

我一直在尝试设置 hadoop 的 CDH4 安装我有 12 台机器标记为 hadoop01 hadoop12 名称节点作业跟踪器和所有数据节点都启动良好我可以查看 dfshealth jsp 并看到它找到了所有数据节点但是每当
更新 hadoop HDFS 文件

我是 Hadoop 的新手我一直读到 HDFS 主要是一次写入多次读取我有一个用例我可能需要对 HDFS 中存储的文件进行修改我一直在研究是否有任何方法可以做到这一点我的问题是是否可以将 HDFS 文件加载到 HBase 中
一个目录中有多少个子目录？

如何查找HDFS中指定目录下的子目录数量当我做hadoop fs ls mydir 我收到 Java 堆空间错误因为目录太大但我感兴趣的是该目录中的子目录数量我试过 gsamaras gwta3000 hadoop fs find
auxService：hive 上不存在mapreduce_shuffle

我正在使用 hive 1 2 0 和 hadoop 2 6 0 每当我在我的机器上运行配置单元时选择查询工作正常但在以下情况下count 它显示以下错误此任务的诊断消息容器启动失败容器 1434646588807 0001 01
Hadoop 框架中使用的属性的完整列表

我正在对 Hadoop 框架进行一些研究我想问一下框架中可以使用的属性例如 io sort mb io sort record percent etc 我可以参考这个框架的整个属性列表吗非常希望有人能帮助我另外我想问一下 io s
为什么 Dockerized Hadoop 数据节点注册了错误的 IP 地址？

我有 Hadoop 2 7 1 名称节点和数据节点的单独 Docker 1 9 1 映像我可以从中创建容器并让它们通过用户定义的 Docker 网络进行通信然而数据节点似乎报告自己拥有网络网关的 IP 地址而不是它自己的 IP 地
无法使用 scala 将字符串写入 hdfs 文件

我编写了一些代码在 hdfs 中创建一个文件并向其写入字节这是代码 def write uri String filePath String data String Unit System setProperty HADOOP USER
Hadoop - 重新启动数据节点和任务跟踪器

我想关闭单个数据节点和任务跟踪器以便我在mapred site xml中所做的一些新更改生效例如mapred reduce child java opts等我该怎么做但是我不想关闭整个集群因为我有正在运行的活动作业另外如何确
Namenode-HDFS 出现“连接被拒绝”错误（Hadoop 问题）

当我们看到使用时我的所有节点都已启动并运行jps命令但我仍然无法连接到 hdfs 文件系统每当我点击Browse the filesystem在 Hadoop Namenode localhost 8020 页面上我得到的错误是Co
无法创建目录 /home/hadoop/hadoopinfra/hdfs/namenode/current

我收到错误 Cannot create directory home hadoop hadoopinfra hdfs namenode current 尝试在我的本地 Mac 上安装 hadoop 时这可能是什么原因仅供参考我将我的
gzip 文件如何存储在 HDFS 中

HDFS存储支持压缩格式来存储压缩文件我知道 gzip 压缩不支持夹板现在假设该文件是一个 gzip 压缩文件其压缩大小为 1 GB 现在我的问题是该文件将如何存储在 HDFS 中块大小为 64MB 由此link http com
将文件从 HDFS 复制到本地计算机

我在尝试将文件从 HDFS 文件系统下载到本地系统时遇到问题即使相反的操作没有问题注意文件存在于 HDFS 文件系统的指定路径上这是一个代码片段 Configuration conf new Configuration conf
访问 HDFS 中文件的 URI

我已经使用 Ambari 设置了一个包含 3 个节点的集群现在我想使用客户端应用程序访问 HDFS 中的文件我可以在 Ambari 的数据节点下找到所有节点 URI 我需要使用什么 URI 端口来访问文件我使用的是默认安装过程默认端
如何访问Hadoop HDFS中的文件？

我的 Hadoop HDFS 中有一个 jar 文件包含我想要修改的 Java 项目我想在 Eclipse 中打开它当我打字时hdfs dfs ls user 我可以看到 jar 文件在那里但是当我打开 Eclipse 并尝试导入
如何将位于 HDFS 上的类型安全配置文件添加到 Spark-Submit（集群模式）？

我有一个 Spark Spark 1 5 2 应用程序它将数据从 Kafka 流式传输到 HDFS 我的应用程序包含两个 Typesafe 配置文件来配置某些内容例如 Kafka 主题等现在我想在集群中使用spark submit 集
hadoop 连接在端口 9000 上被拒绝

我想设置一个伪分布式模式的hadoop集群进行开发由于端口 9000 上的连接被拒绝尝试启动 hadoop 集群失败这些是我的配置非常标准站点核心 xml
HDFS 在大量小文件和 128 Mb 块大小上的行为

我有很多多达数十万个小文件每个文件 10 100 Kb 我的 HDFS 块大小等于 128 MB 我的复制因子等于 1 为每个小文件分配 HDFS 块有什么缺点吗我见过相当矛盾的答案答案说最小的文件占用整个块 https stac
无法使用 PDI 步骤连接到 HDFS

我已经配置成功了Hadoop 2 4 in an Ubuntu 14 04 虚拟机 from a 视窗8系统 Hadoop 安装工作绝对正常而且我还可以从 Windows 浏览器查看 Namenode 附图如下所以我的主机名是 ubu
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束

随机推荐

和一个已经浙大本科毕业，现已年入百万的高管交流，交流时长一小时，看看我们究竟谈了什么?

今天下午进行聊天 xff0c 收获很多 xff0c 在这里进行总结整理 xff0c 也方便日后查看文章目录一读博还是不读博 xff1f x1f914 二 ChatGPT的用途 x1f496 三考研值得去思考择校 x1f4ab 四
《定理篇》高等数学、线性代数、概率统计

文章目录一高等数学 xff08 第7版 xff09 同济大学1 1 高数上1 2 高数下二线性代数 xff08 第六版 xff09 同济大学三概率统计 xff08 第四版 xff09 浙江大学一高等数学 xff08 第7版 x
蓝桥杯之单片机学习（终）——关于之前文章的错误及更正（附：第十四届蓝桥杯单片机赛题）

文章目录零吐槽一关于自创模板 xff0c 和自写模板库的问题二关于 96 详解A D D A PCF8591 96 这篇文章一些小错误三模板最终版本main cds1302 hds1302 conewire honewire ci
【缺陷管理】12：BUG背后的故事——缺陷技能提升

如果别人发现一个bug xff0c 自己却没有发现 xff0c 这个是为什么 xff1f 是靠运气如果自己发现一个bug xff0c 别人没有发现 xff1f 是运气 xff0c 还是另有一番玄机 xff1f 感觉背后隐隐约约有一些思考的
对于异步编程的使用方法的整理

本文是我给自己的学习做的一个总结 xff0c 不保证正确性 xff0c 请读到本文的朋友谨慎参考 xff0c 欢迎交流 xff0c 谢谢明确一个问题 xff1a 61 61 61 61 61 61 61 61 61 61 61 61 61
接上一篇，主要写task的使用，没办法发表后再修改搞不好就把文本丢了

3 类 Task 参考资料 xff1a 百度安全验证请高手们说说Task和Thread的区别百度知道面试必备 xff1a 请问C 中Task和Thread有区别吗 xff1f 如果有请简述区别 Run task与thread的区别和使
async/await的学习笔记

1 saycn和await的定义资料 xff1a https www jb51 net article 237968 htm await operator C reference Microsoft Docs async C Refere
基于库函数的stm32单片机的外设使用

本文用于自己的学习记录 xff0c 欢迎交流 1 stm32单片机的外设 STM32单片机有很多外设 xff0c 这里进行一下整理 xff0c 常用的外设有GPIO AFIO EXTI NVIC 在stm32技术手册中可以知道这些外设的位置
eclipse在导入一个Web项目后，配置好Tomcat发现项目打红叉，而WebContent和其他内容没有错误，但是右键run并没有run on Server。

eclipse在导入一个Web项目后 xff0c 配置好Tomcat发现项目打红叉 xff0c 而WebContent和其他内容没有错误 xff0c 但是右键run并没有run on Server 问题描述 xff1a eclipse在导入
23.IMU和里程计融合与单独编码器里程计的对比测试

里程计直接会作为建图或者导航的时候的输入 xff0c 所以起着至关重要的做 xff0c 准确性直接影响建图和导航的效果单独使用轮子编码器得到的里程计与融合了IMU数据的里程计最终效果如何 xff0c 我们这里做个测试来对比下有2种方式测
IDEA的Web项目启动Tomcat出现404错误

IDEA的Web项目启动Tomcat出现404错误 Web项目输出路径 xff1a chapter1 Web exploded 先启动Tomcat xff0c 然后就出现404错误 xff08 如下图所示 xff09 xff0c 启动Tom
彻底卸载Google Chrome

彻底卸载Google Chrome 参考链接 https jingyan baidu com article ea24bc39ffb699da63b33147 html 在删除到注册表的时候 xff0c HKEY LOCAL MACHINE
蓝桥杯JavaB组2013年

蓝桥杯JavaB组 2013年 3 振兴中华入门dfs span class token comment 题目描述 xff1a 小明参加了学校的趣味运动会 xff0c 其中的一个项目是 xff1a 跳格子地上画着一些格子 xff0c 每
Ubuntu的ssh免密登录出现错误

Ubuntu的ssh免密登录出现错误 sign and send pubkey signing failed agent refused operation 错误如下 xff1a sign and send pubkey signing f
OracleVirtualBox界面太小，操作界面对用户不友好？如何使得界面最大化且方便在Windows和Linux环境之间切换应用呢？

OracleVirtualBox界面太小 xff0c 操作界面对用户不友好 xff1f 如何使得界面最大化且方便在Windows和Linux环境之间切换应用呢 xff1f 写在前面 xff0c 个人记录学习笔记仅供参考 xff01 xff
flume报错java.net.ConnectException: 拒绝连接；

flume报错记录 java net ConnectException 拒绝连接 For more details see http wiki apache org hadoop ConnectionRefused 文章目录具体信息解决方
虚拟机在桥接模式下，A类IP地址访问不了外网，C类则可以

虚拟机在桥接模式下 xff0c A类IP地址访问不了外网 xff0c C类则可以写在前面 xff0c 个人学习记录 xff0c 有错误请指正 xff01 Ubuntu网络选择 NAT和桥接网卡模式的区别一 NAT模式 xff1a 特点
Java项目——云R记

Java入门级项目云R记文章目录 Java入门级项目云R记 1 项目介绍 2 需求分析 3 环境搭建 3 1 创建项目 3 2 分层思想 3 3 数据库连接 3 4 单元测试 3 5 使用日志 4 用户模块 5 类型模块 6 云记模块
Linux安装Eclipse

Linux安装Eclipse 文章目录 Linux安装EclipseEclipse国内镜像 Eclipse国内镜像中国科学技术大学 xff1a http mirrors ustc edu cn eclipse eclipse downlo
HDFS 自定义实现函数将文件追加到末尾的问题

HDFS 自定义实现函数将文件追加到末尾的问题 xff1a 一实验环境 xff1a Ubuntu16 04Hadoop2 7 1 伪分布式 xff08 只有一个DN xff09 Eclipse 二解决方案 Java代码 xff1a sp

HDFS 自定义实现函数将文件追加到末尾的问题

HDFS 自定义实现函数将文件追加到末尾的问题：

一、实验环境：

二、解决方案

三、注意点

HDFS 自定义实现函数将文件追加到末尾的问题 的相关文章

随机推荐

热门标签

HDFS 自定义实现函数将文件追加到末尾的问题的相关文章