如何解决hadoop中的“文件只能复制到0个节点，而不是1个”？

2024-03-24

我有一个简单的 hadoop 作业，可以抓取网站并将其缓存到 HDFS。映射器检查 HDFS 中是否已存在 URL，如果存在，则使用它，否则下载页面并将其保存到 HDFS。

如果下载页面时遇到网络错误（404 等），则完全跳过 URL - 不会写入 HDFS。每当我运行一个大约 1000 个网站的小列表时，我似乎总是遇到这个错误，它在我的伪分布式安装中反复使作业崩溃。可能是什么问题呢？

我正在运行 Hadoop 0.20.2-cdh3u3。

org.apache.hadoop.ipc.RemoteException: java.io.IOException: File /user/raj/cache/9b4edc6adab6f81d5bbb84fdabb82ac0 could only be replicated to 0 nodes, instead of 1
    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:1520)
    at org.apache.hadoop.hdfs.server.namenode.NameNode.addBlock(NameNode.java:665)
    at sun.reflect.GeneratedMethodAccessor7.invoke(Unknown Source)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:616)
    at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:557)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1434)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1430)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:416)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1157)
    at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1428)

问题是映射器中用于缓存文件系统输入的未关闭的 FileSystem InputStream 实例。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

Cloudera

如何解决hadoop中的“文件只能复制到0个节点，而不是1个”？的相关文章

Hive：转换“yyyy-MM-dd'T'HH:mm:ss.SSS'Z'”中缺少秒数的字符串日期时间

我使用以下代码将字符串日期时间变量转换为日期时间但转换后的字符串缺少 SSS 部分使用的代码 cast FROM UNIXTIME UNIX TIMESTAMP oldtime yyyy MM dd T HH mm ss SSS Z y
映射减少计数示例

我的问题是关于mapreduce programming in java 假设我有 WordCount java 示例一个标准mapreduce program 我希望map函数收集一些信息并返回形成如下的reduce函数map
Impala 表中的压缩

我想了解 Impala 表中的压缩但找不到可供研究的材料有哪些不同的技术以及我在哪里可以找到研究它的材料主要技术为compaction是为了避免small file problem这取决于您的用例例如您可能有一个将小文件写入的进程
Hive 表的默认分隔符是什么？

如果我们在创建表时不提及任何分隔符 hive 是否有默认分隔符创建表日志 ts bigint 行字符串按 dt 字符串国家地区字符串分区默认分隔符 001 如果创建hive表时没有设置您可以将其更改为其他分隔符例如 hive
线程“main”中出现异常java.lang.UnsupportedClassVersionError，不支持的major.minor版本52.0

我尝试在 hadoop 1 0 4 上运行 WordCount 示例但收到以下错误 Exception in thread main java lang UnsupportedClassVersionError WordCount Uns
使用自制软件安装hadoop时出错

我正在尝试在 Mac 上本地安装 hadoop 但在尝试 brew install hadoop 时收到以下错误 brew install hadoop gt Downloading http www apache org dyn clos
java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
使用 python 从 HDFS 获取文件名列表

这里是 Hadoop 菜鸟我搜索了一些有关 hadoop 和 python 入门的教程但没有取得太大成功我还不需要使用映射器和缩减器进行任何工作但这更多是一个访问问题作为Hadoop集群的一部分 HDFS 上有一堆 dat 文件
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
错误：java.io.IOException：错误值类：类 org.apache.hadoop.io.Text 不是类 Myclass

我的映射器和减速器如下但我遇到了某种奇怪的异常我不明白为什么它会抛出这种异常 public static class MyMapper implements Mapper
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
无法从 JAR 文件加载主类

我有一个 Spark scala 应用程序我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系我成功显示了我的消息但他显示了错误像这样 Hello my applicat
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
这个 Java 语法是什么意思？ [复制]

这个问题在这里已经有答案了可能的重复 java中的是什么意思 https stackoverflow com questions 12649572 what does the type in java mean 在下面的代码中 Itera
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado

随机推荐

如何在ios中写入json文件

这里我正在读取和写入一个 json 文件读取正确但当我写入文件时它不会在 json 文件中写入数据这是我的代码 reading Json file NSString filePath NSBundle mainBundle path
apache mysql - 3306 上的“数据包乱序”

我刚刚全新安装了 Apache 服务器 2 2 一切正常当我访问本地主机时我得到它有效我刚刚安装了 mySQL5 5 当我访问 localhost 3306 时我只是得到乱码 J 5 5 22 4 LM D p 6 I 4 9z
对象适配是否会破坏 Chrome 中的某些图像长宽比？

I m using object fit cover on some IMG tags within a wrapper div to try to fill a div with the image I ve noticed that s
密码输入字段在焦点/类型上从文本更改为密码？

我有一个注册表单其中输入的标题位于文本框中当您单击该框时文本消失但在密码上我希望预览文本保留为密码而不是但是当用户单击文本框时应清除文本并且输入的文本应显示为这是按钮的代码
如何生成从最短到最长的所有可能字符串的列表

我需要使用数字和字母生成无限的字符串列表第一个字符串应该只是 a 然后是 b 到 z 然后是 0 到 9 然后是 aa ab 等我可以轻松地用一个字符生成那些但随后它会变得更加复杂因此假设我们已经有了所有可能字符串的列表 allS
Apache + mod_wsgi - Python 不加载已安装的模块

我有一个带有 mod wsgi 的 Apache 服务器运行 Python 2 7 脚本该脚本使用通过 pip 安装的 python Pillow 模块通常使用运行脚本python script py工作正常但从 wsgi 运行脚本
使用自定义属性创建有效的站点地图

我正在一个网站上工作我的网站有一个 sitemap xml 文件该文件可以看到here http www ecofic com resources root sitemap xml 如果你向下滚动你会看到一个url包含一些自定义标签的
Git hook 用于根据推送到远程服务器的分支更新各种 Web 文件夹

我正在使用 Gitosis Debian Lenny 开发一个 Web 应用程序我希望能够将其推送到不同的远程存储库位置从而允许应用程序的前沿发布候选和生产版本镜像物理 Web 目录和代码库我希望每个目录都有一个应用程序分
使用纯 Observable 与数组（来自订阅）

我想知道有关使用纯可观察值与订阅可观察值并使用数组的最佳实践选项 1 纯可观察 this schools this angularFire database list schools 然后在 HTML 中使用异步管道和 rxjs 运算符
替换 JS 中的变音符号

我正在比较字符串并且必须替换 JS 中的变音符号但 JS 似乎无法识别字符串中的变音符号文本来自数据库在浏览器中变音确实显示得很好 function replaceUmlauts string value string toLowe
如何在C#中实现内存事务范围？

我们有一个缓存我想在其中放置一些事务范围以便任何进程都必须显式提交它想要对缓存对象执行的更改并且可以在进程中途失败时回滚任何更改现在我们正在根据 get 请求深度克隆缓存的对象它可以工作但它不是一个干净的解决方案并且还涉
ASP.NET - bin 目录与在 web.conf 中添加程序集

我对 ASP NET 编程相对较新但不是一般的编程并且我一直在研究移交给我的一个项目在这个项目中有一个 bin 目录其中包含大量各种 DLL 文件然后在 web conf 文件中的程序集结构内在 XML 内添加了大量其他程
ASP.NET MVC 4 中的 Web Api 中的路由

我正在将 Web api 与 ASP NET MVC 4 结合使用我有以下命名的控制器客户控制器控制器客户 ApiController ApiController 早些时候我的CustomerApiController被命名为Cus
在java中使用enum作为类

我有一个班级enum在它和类中其中包含list该对象的 public enum State ACTIVE NOT ACTIVE public class SomeObject State state public SomeObject S
处理 java.lang.IllegalArgumentException：没有枚举常量的最佳方法是什么

枚举类是这样的 public enum UserRoles ADMIN TEST 我想处理它这样如果枚举中没有值它就不应该抛出异常我这样处理 for String roleString roleStrings if roleStrin
如何使用 MajorUpgrade 和 RemoveFeatures 仅删除特定功能并仍然卸载产品的先前版本

我从与 VS 2010 一起打包的 Microsoft 安装程序切换到 Wix 3 6 我试图通过使用
如何进行WCF REST缓存？

我有一个 WCF REST 服务需要返回静态数据和一些基于客户端胖 Windows 客户端传入的参数的过滤数据由于提供此服务的数据存储不会经常更改因此我想在服务上缓存此数据服务器端缓存数据存储是 Azure 表我知道 WCF
使用 DirectX 播放音频时出现加载程序锁定异常

我正在尝试使用 DirectX dll 播放音频文件 Audio FromFile Message 1 mp3 Play 但检测到加载器锁异常如下所示我不是分析堆栈跟踪的专家如何分析和解决装载机锁问题检测到 LoaderLock M
当 iframe 存在时，Android webview 将无法正确处理事件

我遇到以下问题我有一个 web 视图在其中加载一个 iframe 我通过 javascript 修改插入文本内容文档问题是当内容变得太多网络视图变得可滚动并且当用户滚动时触摸事件将无法正确处理即用户将点击某处光标将出现
如何解决hadoop中的“文件只能复制到0个节点，而不是1个”？

我有一个简单的 hadoop 作业可以抓取网站并将其缓存到 HDFS 映射器检查 HDFS 中是否已存在 URL 如果存在则使用它否则下载页面并将其保存到 HDFS 如果下载页面时遇到网络错误 404 等则完全跳过 URL 不会写入

如何解决hadoop中的“文件只能复制到0个节点，而不是1个”？

如何解决hadoop中的“文件只能复制到0个节点，而不是1个”？ 的相关文章

随机推荐

热门标签

如何解决hadoop中的“文件只能复制到0个节点，而不是1个”？的相关文章