Windows 中的 Nutch：无法设置路径权限

2024-03-23

我尝试在 Windows 计算机上使用 Solr 和 Nutch，但收到以下错误：

Exception in thread "main" java.io.IOException: Failed to set permissions of path: c:\temp\mapred\staging\admin-1654213299\.staging to 0700

从我了解到的很多线程中，nutch 似乎使用的 hadoop 做了一些工作chmod可以在 Unix 机器上运行的魔法，但不能在 Windows 上运行。

这个问题已经存在一年多了。我找到了一个线程，其中显示了代码行并提出了修复方案。难道我真的是唯一一个有这个问题的人吗？是否所有其他人都在创建自定义构建以便在 Windows 上运行 nutch？或者是否有一些选项可以禁用 hadoop 的东西或其他解决方案？也许是除了 nutch 之外的另一个爬虫？

这是我正在做的事情的堆栈跟踪：

    admin@WIN-G1BPD00JH42 /cygdrive/c/solr/apache-nutch-1.6
    $ bin/nutch crawl urls -dir crawl -depth 3 -topN 5 -solr http://localhost:8080/solr-4.1.0
    cygpath: can't convert empty path
    crawl started in: crawl
    rootUrlDir = urls
    threads = 10
    depth = 3
    solrUrl=http://localhost:8080/solr-4.1.0
    topN = 5
    Injector: starting at 2013-03-03 17:43:15
    Injector: crawlDb: crawl/crawldb
    Injector: urlDir: urls
    Injector: Converting injected urls to crawl db entries.
    Exception in thread "main" java.io.IOException: Failed to set permissions of path:         c:\temp\mapred\staging\admin-1654213299\.staging to 0700
        at org.apache.hadoop.fs.FileUtil.checkReturnValue(FileUtil.java:689)
        at org.apache.hadoop.fs.FileUtil.setPermission(FileUtil.java:662)
        at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:509)
        at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:344)
        at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:189)
        at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:116)
        at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:856)
        at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Unknown Source)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
        at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850)
        at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:824)
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1261)
        at org.apache.nutch.crawl.Injector.inject(Injector.java:281)
        at org.apache.nutch.crawl.Crawl.run(Crawl.java:127)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

我花了一段时间才让它工作，但这是适用于 nutch 1.7 的解决方案。

下载Hadoop 核心 0.20.2 http://mvnrepository.com/artifact/org.apache.hadoop/hadoop-core/0.20.2来自 Maven 存储库
Replace $NUTCH_HOME/lib/hadoop-core-1.2.0.jar将下载的文件重命名为相同的名称。

应该是这样。

解释

此问题是由 hadoop 引起的，因为它假设您在 unix 上运行并遵守文件权限规则。这个问题实际上在 2011 年就得到了解决，但是 nutch 没有更新他们使用的 hadoop 版本。相关修复是here https://issues.apache.org/jira/browse/HADOOP-7126 and here https://issues.apache.org/jira/browse/HDFS-1084

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Windows 中的 Nutch：无法设置路径权限的相关文章

Pyenv 无法在 Cygwin 上安装 python: ModuleNotFoundError: No module named '_ctypes'

我正在尝试设置 Cygwin 环境以使用 pyenv 来管理 python 版本我没有管理员权限所以我使用以下命令运行设置 no admin flag 我使用 Cygwin 包管理器应用程序解决了一些依赖关系但我被困在了这一点上 Mo
Windows 服务器上的 .htaccess 文件

我进行了研究发现我的 htaccess 文件无法在我的新 Windows 服务器上运行我发现我应该使用 web config 我尝试了一下但没有任何效果然后我发现我可以使用 htaccess 文件但我必须将其命名为其他名称例如
从 Windows 中的 C++ 应用程序进行 Thrift 调用

正如标题所示我有一个用 C 编写的 Windows 应用程序我需要从中调用远程 Thrift 服务说实话我对这个主题有点迷失 http wiki apache org thrift ThriftInstallationWin32 h
如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

我想转换String反对IntWritableHadoop 中的对象任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
如何使用命令终止上次打开的 Internet Explorer 窗口？

我正在尝试编写一个 Windows 命令文件来在 IE 中打开网页等待其加载然后关闭 IE 窗口以下方法有效但会杀死所有 IE 窗口因此运行 cmd 之前已打开的所有 IE 窗口也将被关闭 start iexplore exe p
自动安排并执行 PHP 脚本

我编写了一个 PHP 脚本它生成一个包含数据库中所有表的 SQL 文件我想要做的是每天或每 n 天执行这个脚本我读过有关 cron 作业的内容但我使用的是 Windows 如何在服务器上自动执行脚本您需要添加计划任务来调用 URL
防止 Windows 中的崩溃消息

我的应用程序需要扫描经常导致崩溃的第三方文件为了克服这个问题它使用一个单独的进程来扫描这些文件并每当这个进程崩溃时我的应用程序就会实例化另一个应用程序我的问题是每次崩溃后我都会收到 Windows 崩溃消息 AuxScanner
“npm”不被识别为内部或外部命令、可操作程序或批处理文件

我对 Nodejs 完全陌生我正在尝试让 nodejs 在我的 Windows 2008 机器上工作以便安装 Karma 我将使用它来 TDDing 我的 AngularJs 代码到目前为止我已经完成了以下步骤使用 Chocolat
如何从网页启动 Windows 应用程序？

我们有一个公司内部网并且权力机构认为拥有一组代表大多数代表使用的应用程序 Outlook Excel 少数其他应用程序的图标链接会很好这个想法是如果安装了应用程序单击链接图标将在客户端计算机上启动该应用程序有人曾经有过这样的
命令行显示文件的属性？

我想编写一个显示默认 Windows 属性表的应用程序我找不到太多关于以正常编程方式执行此操作的信息所以我想也许可以使用命令行调用有谁知道 Windows 命令行调用文件的属性详细信息窗口吗没有任何运气去寻找它这个窗口在这里看
无法在 Windows 7 机器中使用 OpenCV 2.4.3、Python 2.7 打开“.mp4”视频文件

我目前正在进行一个涉及读取 mp4 视频文件的项目我遇到的问题是它在Windows 7机器上使用Python 2 7 32位 OpenCV 2 4 3 cv2 pyd 代码片段如下 try video cv2 VideoCapture v
ProcessBuilder 未正确执行 Java 类文件

在一个java文件中我调用命令行语句来执行另一个java文件这就是我正在做的 List
Windows 中内存分配的限制+我计算得是否正确？

我正在编写一个需要大量内存的程序大型图形分析目前我的程序中有两个主要的数据结构占用了大部分内存这些都是 n n 类型的矩阵int 和长度为 n 的数组类型Node 在本例中节点是一个包含两个 int 的结构体 sizeof No
Git 显示更改后的相同文件

当我似乎无法弄清楚更改时 Git 向我显示整个文件已更改这是 cygwin git 但它也发生在 msysgit 中 git version git version 2 1 1 diff lt git show HEAD File cs
Solr：在带有空格的字符串上使用通配符

我的问题与这里讨论的问题基本相同带空格的 Solr 通配符查询 https stackoverflow com questions 10023133 solr wildcard query with whitespace 但这个问题没有得
Solr PatternReplaceCharFilterFactory 未替换为指定模式

所以我对 Solr 很陌生但我尝试使用 PatternReplaceCharFilterFactory 对将存储的电话号码字符串进行一些预处理这是该字段的配置
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
如何用if条件编写ini文件

我想编写一个带有 if else 条件的 ini 文件我用 python 中的 ConfigParser 解析它如何在ini文件中使用if和else语句如果我明白你在问什么您可能想要做的是这样的在 INI 文件中设置条件值 sec
可以禁用“应用程序错误”对话框吗？

我使用 Hudson 作为持续集成服务器来测试 C C 代码不幸的是我在某个地方有一个错误导致内存损坏因此在某些 Windows 计算机上我有时会收到一个应用程序错误对话框解释一条指令引用了无法读取的内存弹出此对话框并基本上挂
将 HttpApi 与 I/O 完成端口结合使用

我刚刚偶然发现了微软的HTTP 服务器 API http msdn microsoft com en us library aa364510 28v vs 85 29 aspx 简介中写道 HTTP 服务器 API 使应用程序能够通过 HT

随机推荐

Mockito：如何在 Spy 中模拟对象

该应用程序运行在JEE环境中我希望将 Spy 注入到被测试的 bean 中 Spy 对象内部还有一些需要注入的 bean 如何将这些 bean 的模拟注入到 Spy 中这是用例 package testinject2 import ja
如何使用 MATLAB 创建 k 阶矩阵？

我希望创建一个排名矩阵k 矩阵的维数是m x n 输入k满足这个条件k lt min m n 目前还不太清楚您的目标是什么但为了创建一个矩阵B具有特定等级k 从矩阵A with rank至少k 您可能想利用svd并继续如下 gt gt g
如何使用 Django Channels 进行多线程 AsyncConsumer

我已经使用 Django Channels 一周了有些事情让我烦恼runworker并行性例如我有一个 MQTT 客户端它在收到消息时在通道中发布基本 async def treat message msg channel lay
如何使用 tesseract 4.0 或使用 pytesseract 检测图像中的表格？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想检测图像中的表格识别表格块以及其中可能的文本在 tesseract 的早期版本中可以使用参数 textord dump t
Mybatis 3.0.5 嵌套集合映射示例

我正在研究 MyBatis 3 0 5 的映射功能运行嵌入式模式的数据库是H2 1 3 160 在用户手册的帮助下我让简单的部分工作起来但我很难绘制出Set使用一个HashMap作为后备存储以下是自定义集合的 Java 代码该集合
IntellijIdea 中未解决的参考 Kotlinx。即使添加库后

我只是想尝尝 Kotlin 协程不幸的是我无法使用该库kotlinx in IntelliJ 我已经通过下载了该库Maven 尝试使缓存无效重建项目尝试在新项目中使用它 Even IntelliJ正在建议kotlinx在自动完成中
有没有办法在 Windows 中安装 therubyracer？

有没有办法安装 therubyracer gem 即在 Windows 中运行 RoR 项目所需的方法我尝试过正常方式但不行然后我尝试安装 cygwin 然后尝试安装 gem 但仍然没有运气有人在windows下成功安装过这个吗我
Leaflet OSM：多边形上的中心地图视图

我想生成一个 html 文件包括Leaflet库来显示OpenStreetMap用多边形查看地图上的多边形应居中为此我遵循this https github com Leaflet Leaflet issues 1196讨论但我仍
上标下划线随文本向上移动

我有类似以下的 HTML 代码 div We have winner of 1 div
JVM 源代码中的“intrinsify”是什么意思？

intrinsify 是否意味着 JVM 的源代码有些保守但 JIT 编译器可以在 JVM 预热时进行一些优化例如 UNSAFE ENTRY void Unsafe SetOrderedObject JNIEnv env jobjec
Three.js - 从点缩放圆柱体

是否可以从特定点开始增加 Y 轴上圆柱体的比例与圆柱体从其原点向上和向下生长到新比例不同它只是像条形图一样从顶部向上向下生长当前代码 function animate render cylinder scale y 0 1 requ
PHP代码格式化程序/美化程序和一般的PHP美化[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案你知道有什么好的工具可以很好地格式化凌乱的 php 代码吗最好是 Aptana Eclipse 的脚
将 Spark 中的字符串数组转换为字节数组并使用 UDF 将其检索回来

我正在尝试将 Spark 中的字符串数组转换为字节数组然后将字节数组重新转换为字符串数组但是我没有按照我的预期取回字符串数组这是代码 UDFs for converting Array String to byte array an
OrientDB地理定位

我正在使用 OrientDB for NoSQL 数据库但我不知道如何准确查询地理位置我已阅读具体文档东方数据库函数 https github com orientechnologies orientdb wiki SQL Where
python 中是否有终止线程的规范方法？

我想在 python 中强制终止线程我不想设置事件并等待线程检查它并退出我正在寻找一个简单的解决方案例如kill 9 这是否可以在没有肮脏的黑客例如使用私有方法操作等的情况下做到这一点如果您不介意代码运行速度慢十倍左右则可以使
如何从 CodeIgniter 中的 URL 中删除“index.php”？

我该如何删除index php从我的URL http en wikipedia org wiki Uniform Resource Locator在代码点火器中我删除了index php从我的配置文件中我已经运行了我的rewrite m
离线Python脚本中的OAuth和redirect_uri

我目前正在尝试编写一个 Python 脚本该脚本将使用 Deviantart 的 API 自动随机播放我最喜欢的歌曲为此我需要首先登录我的脚本 Deviantart 使用 OAuth2 身份验证这需要一个 redirect uri
类型错误：$ (...).bootstrapTable 不是函数

table class table table bordered table striped table hover table
使用 Makecert 设置密钥使用属性

是否可以使用 makecert 或我可以用来生成自己的测试证书的任何其他工具来设置密钥用法属性我感兴趣的原因是用于 BizTalk Server AS2 传输的证书需要使用数字签名的密钥进行签名并使用数据加密或密钥加密进行加密解密
Windows 中的 Nutch：无法设置路径权限

我尝试在 Windows 计算机上使用 Solr 和 Nutch 但收到以下错误 Exception in thread main java io IOException Failed to set permissions of path

Windows 中的 Nutch：无法设置路径权限

Windows 中的 Nutch：无法设置路径权限 的相关文章

随机推荐

热门标签

Windows 中的 Nutch：无法设置路径权限的相关文章