Windows 中的 Nutch:无法设置路径权限

2024-03-23

我尝试在 Windows 计算机上使用 Solr 和 Nutch,但收到以下错误:

Exception in thread "main" java.io.IOException: Failed to set permissions of path: c:\temp\mapred\staging\admin-1654213299\.staging to 0700

从我了解到的很多线程中,nutch 似乎使用的 hadoop 做了一些工作chmod可以在 Unix 机器上运行的魔法,但不能在 Windows 上运行。

这个问题已经存在一年多了。我找到了一个线程,其中显示了代码行并提出了修复方案。难道我真的是唯一一个有这个问题的人吗?是否所有其他人都在创建自定义构建以便在 Windows 上运行 nutch?或者是否有一些选项可以禁用 hadoop 的东西或其他解决方案?也许是除了 nutch 之外的另一个爬虫?

这是我正在做的事情的堆栈跟踪:

    admin@WIN-G1BPD00JH42 /cygdrive/c/solr/apache-nutch-1.6
    $ bin/nutch crawl urls -dir crawl -depth 3 -topN 5 -solr http://localhost:8080/solr-4.1.0
    cygpath: can't convert empty path
    crawl started in: crawl
    rootUrlDir = urls
    threads = 10
    depth = 3
    solrUrl=http://localhost:8080/solr-4.1.0
    topN = 5
    Injector: starting at 2013-03-03 17:43:15
    Injector: crawlDb: crawl/crawldb
    Injector: urlDir: urls
    Injector: Converting injected urls to crawl db entries.
    Exception in thread "main" java.io.IOException: Failed to set permissions of path:         c:\temp\mapred\staging\admin-1654213299\.staging to 0700
        at org.apache.hadoop.fs.FileUtil.checkReturnValue(FileUtil.java:689)
        at org.apache.hadoop.fs.FileUtil.setPermission(FileUtil.java:662)
        at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:509)
        at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:344)
        at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:189)
        at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:116)
        at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:856)
        at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Unknown Source)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
        at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850)
        at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:824)
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1261)
        at org.apache.nutch.crawl.Injector.inject(Injector.java:281)
        at org.apache.nutch.crawl.Crawl.run(Crawl.java:127)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

我花了一段时间才让它工作,但这是适用于 nutch 1.7 的解决方案。

  1. 下载Hadoop 核心 0.20.2 http://mvnrepository.com/artifact/org.apache.hadoop/hadoop-core/0.20.2来自 Maven 存储库
  2. Replace $NUTCH_HOME/lib/hadoop-core-1.2.0.jar将下载的文件重命名为相同的名称。

应该是这样。

解释

此问题是由 hadoop 引起的,因为它假设您在 unix 上运行并遵守文件权限规则。这个问题实际上在 2011 年就得到了解决,但是 nutch 没有更新他们使用的 hadoop 版本。相关修复是here https://issues.apache.org/jira/browse/HADOOP-7126 and here https://issues.apache.org/jira/browse/HDFS-1084

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Windows 中的 Nutch:无法设置路径权限 的相关文章

  • Pyenv 无法在 Cygwin 上安装 python: ModuleNotFoundError: No module named '_ctypes'

    我正在尝试设置 Cygwin 环境以使用 pyenv 来管理 python 版本 我没有管理员权限 所以我使用以下命令运行设置 no admin flag 我使用 Cygwin 包管理器应用程序解决了一些依赖关系 但我被困在了这一点上 Mo
  • Windows 服务器上的 .htaccess 文件

    我进行了研究 发现我的 htaccess 文件无法在我的新 Windows 服务器上运行 我发现我应该使用 web config 我尝试了一下 但没有任何效果 然后我发现我可以使用 htaccess 文件 但我必须将其命名为其他名称 例如
  • 从 Windows 中的 C++ 应用程序进行 Thrift 调用

    正如标题所示 我有一个用 C 编写的 Windows 应用程序 我需要从中调用远程 Thrift 服务 说实话 我对这个主题有点迷失 http wiki apache org thrift ThriftInstallationWin32 h
  • 如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

    我想转换String反对IntWritableHadoop 中的对象 任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
  • 如何使用命令终止上次打开的 Internet Explorer 窗口?

    我正在尝试编写一个 Windows 命令文件来在 IE 中打开网页 等待其加载 然后关闭 IE 窗口 以下方法有效 但会杀死所有 IE 窗口 因此运行 cmd 之前已打开的所有 IE 窗口也将被关闭 start iexplore exe p
  • 自动安排并执行 PHP 脚本

    我编写了一个 PHP 脚本 它生成一个包含数据库中所有表的 SQL 文件 我想要做的是每天或每 n 天执行这个脚本 我读过有关 cron 作业的内容 但我使用的是 Windows 如何在服务器上自动执行脚本 您需要添加计划任务来调用 URL
  • 防止 Windows 中的崩溃消息

    我的应用程序需要扫描经常导致崩溃的第三方文件 为了克服这个问题 它使用一个单独的进程来扫描这些文件并 每当这个进程崩溃时 我的应用程序就会实例化另一个应用程序 我的问题是 每次崩溃后我都会收到 Windows 崩溃消息 AuxScanner
  • “npm”不被识别为内部或外部命令、可操作程序或批处理文件

    我对 Nodejs 完全陌生 我正在尝试让 nodejs 在我的 Windows 2008 机器上工作 以便安装 Karma 我将使用它来 TDDing 我的 AngularJs 代码 到目前为止我已经完成了以下步骤 使用 Chocolat
  • 如何从网页启动 Windows 应用程序?

    我们有一个公司内部网 并且权力机构认为拥有一组代表大多数代表使用的应用程序 Outlook Excel 少数其他应用程序 的图标 链接会很好 这个想法是 如果安装了应用程序 单击链接 图标将在客户端计算机上启动该应用程序 有人曾经有过这样的
  • 命令行显示文件的属性?

    我想编写一个显示默认 Windows 属性表的应用程序 我找不到太多关于以正常编程方式执行此操作的信息 所以我想也许可以使用命令行调用 有谁知道 Windows 命令行调用文件的属性 详细信息窗口吗 没有任何运气去寻找它 这个窗口在这里 看
  • 无法在 Windows 7 机器中使用 OpenCV 2.4.3、Python 2.7 打开“.mp4”视频文件

    我目前正在进行一个涉及读取 mp4 视频文件的项目 我遇到的问题是它在Windows 7机器上使用Python 2 7 32位 OpenCV 2 4 3 cv2 pyd 代码片段如下 try video cv2 VideoCapture v
  • ProcessBuilder 未正确执行 Java 类文件

    在一个java文件中 我调用命令行语句来执行另一个java文件 这就是我正在做的 List
  • Windows 中内存分配的限制+我计算得是否正确?

    我正在编写一个需要大量内存的程序 大型图形分析 目前我的程序中有两个主要的数据结构 占用了大部分内存 这些都是 n n 类型的矩阵int 和长度为 n 的数组 类型Node 在本例中 节点是一个包含两个 int 的结构体 sizeof No
  • Git 显示更改后的相同文件

    当我似乎无法弄清楚更改时 Git 向我显示整个文件已更改 这是 cygwin git 但它也发生在 msysgit 中 git version git version 2 1 1 diff lt git show HEAD File cs
  • Solr:在带有空格的字符串上使用通配符

    我的问题与这里讨论的问题基本相同 带空格的 Solr 通配符查询 https stackoverflow com questions 10023133 solr wildcard query with whitespace 但这个问题没有得
  • Solr PatternReplaceCharFilterFactory 未替换为指定模式

    所以我对 Solr 很陌生 但我尝试使用 PatternReplaceCharFilterFactory 对将存储的电话号码字符串进行一些预处理 这是该字段的配置
  • 如何通过Python访问Hive?

    https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
  • 如何用if条件编写ini文件

    我想编写一个带有 if else 条件的 ini 文件 我用 python 中的 ConfigParser 解析它 如何在ini文件中使用if和else语句 如果我明白你在问什么 您可能想要做的是这样的 在 INI 文件中设置条件值 sec
  • 可以禁用“应用程序错误”对话框吗?

    我使用 Hudson 作为持续集成服务器来测试 C C 代码 不幸的是 我在某个地方有一个错误导致内存损坏 因此在某些 Windows 计算机上我有时会收到一个 应用程序错误 对话框 解释一条指令引用了无法读取的内存 弹出此对话框并基本上挂
  • 将 HttpApi 与 I/O 完成端口结合使用

    我刚刚偶然发现了微软的HTTP 服务器 API http msdn microsoft com en us library aa364510 28v vs 85 29 aspx 简介中写道 HTTP 服务器 API 使应用程序能够通过 HT

随机推荐

  • Mockito:如何在 Spy 中模拟对象

    该应用程序运行在JEE环境中 我希望将 Spy 注入到被测试的 bean 中 Spy 对象内部还有一些需要注入的 bean 如何将这些 bean 的模拟注入到 Spy 中 这是用例 package testinject2 import ja
  • 如何使用 MATLAB 创建 k 阶矩阵?

    我希望创建一个排名矩阵k 矩阵的维数是m x n 输入k满足这个条件k lt min m n 目前还不太清楚您的目标是什么 但为了创建一个矩阵B具有特定等级k 从矩阵A with rank至少k 您可能想利用svd并继续如下 gt gt g
  • 如何使用 Django Channels 进行多线程 AsyncConsumer

    我已经使用 Django Channels 一周了 有些事情让我烦恼runworker并行性 例如 我有一个 MQTT 客户端 它在收到消息时在通道中发布 基本 async def treat message msg channel lay
  • 如何使用 tesseract 4.0 或使用 pytesseract 检测图像中的表格? [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我想检测图像中的表格 识别表格块以及其中可能的文本 在 tesseract 的早 期版本中 可以使用参数 textord dump t
  • Mybatis 3.0.5 嵌套集合映射示例

    我正在研究 MyBatis 3 0 5 的映射功能 运行嵌入式模式的数据库是H2 1 3 160 在用户手册的帮助下 我让简单的部分工作起来 但我很难绘制出Set使用一个HashMap作为后备存储 以下是自定义集合的 Java 代码 该集合
  • IntellijIdea 中未解决的参考 Kotlinx。即使添加库后

    我只是想尝尝 Kotlin 协程 不幸的是 我无法使用该库kotlinx in IntelliJ 我已经通过下载了该库Maven 尝试使缓存无效 重建项目 尝试在新项目中使用它 Even IntelliJ正在建议kotlinx在自动完成中
  • 有没有办法在 Windows 中安装 therubyracer?

    有没有办法安装 therubyracer gem 即在 Windows 中运行 RoR 项目所需的方法 我尝试过正常方式 但不行 然后我尝试安装 cygwin 然后尝试安装 gem 但仍然没有运气 有人在windows下成功安装过这个吗 我
  • Leaflet OSM:多边形上的中心地图视图

    我想生成一个 html 文件 包括Leaflet库来显示OpenStreetMap用多边形查看 地图上的多边形应居中 为此 我遵循this https github com Leaflet Leaflet issues 1196讨论 但我仍
  • 上标下划线随文本向上移动

    我有类似以下的 HTML 代码 div We have winner of 1 div
  • JVM 源代码中的“intrinsify”是什么意思?

    intrinsify 是否意味着 JVM 的源代码有些 保守 但 JIT 编译器可以在 JVM 预热时进行一些优化 例如 UNSAFE ENTRY void Unsafe SetOrderedObject JNIEnv env jobjec
  • Three.js - 从点缩放圆柱体

    是否可以从特定点开始增加 Y 轴上圆柱体的比例 与圆柱体从其原点向上和向下生长到新比例不同 它只是像条形图一样从顶部向上 向下生长 当前代码 function animate render cylinder scale y 0 1 requ
  • PHP代码格式化程序/美化程序和一般的PHP美化[关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 你知道有什么好的工具可以很好地格式化凌乱的 php 代码吗 最好是 Aptana Eclipse 的脚
  • 将 Spark 中的字符串数组转换为字节数组并使用 UDF 将其检索回来

    我正在尝试将 Spark 中的字符串数组转换为字节数组 然后将字节数组重新转换为字符串数组 但是 我没有按照我的预期取回字符串数组 这是代码 UDFs for converting Array String to byte array an
  • OrientDB地理定位

    我正在使用 OrientDB for NoSQL 数据库 但我不知道如何准确查询地理位置 我已阅读具体文档 东方数据库函数 https github com orientechnologies orientdb wiki SQL Where
  • python 中是否有终止线程的规范方法?

    我想在 python 中强制终止线程 我不想设置事件并等待线程检查它并退出 我正在寻找一个简单的解决方案 例如kill 9 这是否可以在没有肮脏的黑客 例如使用私有方法操作等 的情况下做到这一点 如果您不介意代码运行速度慢十倍左右 则可以使
  • 如何从 CodeIgniter 中的 URL 中删除“index.php”?

    我该如何删除index php从我的URL http en wikipedia org wiki Uniform Resource Locator在代码点火器中 我删除了index php从我的配置文件中 我已经运行了我的rewrite m
  • 离线Python脚本中的OAuth和redirect_uri

    我目前正在尝试编写一个 Python 脚本 该脚本将使用 Deviantart 的 API 自动随机播放我最喜欢的歌曲 为此 我需要首先登录我的脚本 Deviantart 使用 OAuth2 身份验证 这需要一个 redirect uri
  • 类型错误:$ (...).bootstrapTable 不是函数

    table class table table bordered table striped table hover table
  • 使用 Makecert 设置密钥使用属性

    是否可以使用 makecert 或我可以用来生成自己的测试证书的任何其他工具来设置密钥用法属性 我感兴趣的原因是 用于 BizTalk Server AS2 传输的证书需要使用数字签名的密钥进行签名 并使用数据加密或密钥加密进行加密 解密
  • Windows 中的 Nutch:无法设置路径权限

    我尝试在 Windows 计算机上使用 Solr 和 Nutch 但收到以下错误 Exception in thread main java io IOException Failed to set permissions of path