Apache Nutch 2.1 不同批次 ID(空)

2024-03-26

我使用 Apache Nutch 2.1 爬行了几个网站。

爬行时,我在很多页面上看到以下消息:
前任。跳绳http://www.domainname.com/news/subcategory/111111/index.html http://www.domainname.com/news/subcategory/111111/index.html;不同的批次 ID(空)。

是什么原因导致这个错误?
我该如何解决这个问题,因为具有不同批次ID(空)的页面未存储在数据库中。

我爬取的网站是基于drupal的,但我已经尝试过许多其他非drupal网站。


我想,消息没有问题。 batch_id 未分配给所有 url。因此,如果batch_id为null,则跳过url。当batch_id指定为url时生成url。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Apache Nutch 2.1 不同批次 ID(空) 的相关文章

  • CentOs Php 和 MySql 配置

    我已经安装了 php 并运行了一段时间 但我开始从事一个连接到数据库 即 mysql 的项目 所以我安装了 mysql 5 1 73 现在当我使用它连接到数据库时线 dbhandle mysql connect hostname usern
  • 将子域重定向到新域

    大家好 尝试让 301 重定向正常工作但遇到了麻烦 我需要将 sub domain1 com 重定向到 www domain2 com 并确保所有文件名或参数都随之发送 这就是我正在尝试的 RewriteCond HTTP HOST dom
  • 用作 MAMP 起始页 URL 的 index.* 文件在哪里?

    我试图了解 MAMP 如何管理 Apache Web 服务器 但我找不到index 用作 MAMP 起始页的文件 虚拟主机配置 httpd vhosts conf 不包括在内并且Applications MAMP htdocs仅包含我自己的
  • 制作一个网络爬虫/蜘蛛

    我正在考虑制作一个网络爬虫 蜘蛛 但我需要有人为我指明正确的方向才能开始 基本上 我的蜘蛛将搜索音频文件并为其建立索引 我只是想知道是否有人对我应该如何做有任何想法 我听说用 PHP 完成它会非常慢 我知道 vb net 那么这能派上用场吗
  • Vagrant 的端口转发不起作用[关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 我在最后遇到了一个小问题入门指南vagrant http vagrantup com docs getting started ports html
  • 如何配置 apache 服务器与 HTTPS 后端服务器通信?

    我将 apache 服务器配置为反向代理 如果我将后端服务器指定为 HTTP 则它可以正常工作 那是 我将虚拟主机 443 配置为 ProxyPass primary store http localhost 9763 store Prox
  • 无法更改 php 会话 cookie 名称

    我将现有且成功运行的站点复制到新的开发服务器 新服务器上的登录现在已损坏 我追踪到虽然会话 cookie 已重命名 ini set session name DOMAIN1 浏览器继续将会话 cookie 存储为 PHPSESSID 当我从
  • HtmlUnit 的替代方案

    迄今为止 我一直在研究可用的无头浏览器 发现 HtmlUnit 的使用非常广泛 与 HtmlUnit 相比 我们是否有任何具有可能优势的 HtmlUnit 替代方案 谢谢 纳恩 据我所知 HtmlUnit 是最强大的无头浏览器 你对此有什么
  • 如何在应用程序级别管理只读数据库连接

    我们使用的是Java Spring Ibatis MySql 有没有办法利用这些技术在应用程序级别管理只读连接 我希望在只读 MySql 用户的基础上添加额外的保护层 如果 BasicDataSource 或 SqlMapClientTem
  • 硒隐式等待不起作用

    这是我第一次使用 selenium 和无头浏览器 因为我想使用 ajax 技术抓取一些网页 效果很好 但在某些情况下加载整个页面需要太多时间 特别是当某些资源不可用时 所以我必须为selenium设置一个超时 首先我尝试过set page
  • 在同一台服务器上运行两个 PHP 版本

    我在本地服务器上有两个项目 一个项目运行PHP5 6 另一个项目运行PHP7 0 现在可以根据项目启用这两个版本吗 我已经尝试添加AddHandler application x httpd php7 php在 htaccess 项目之一中
  • 如何基于Scrapy构建一个永远运行的网络爬虫?

    我想基于Scrapy构建一个网络爬虫 从多个新闻门户网站抓取新闻图片 我希望这个爬虫是 永远奔跑 意味着它将定期重新访问一些门户页面以获取更新 安排优先事项 为不同类型的 URL 赋予不同的优先级 多线程获取 我已经阅读了Scrapy文档
  • Apache mod_rewrite 内部到不同的端口

    是否可以使用 mod rewrite 内部重定向 因此地址栏中的 url 不会更改 到同一主机上的不同端口 例如 http host com 8080 gt http host com 9999 myapplication param va
  • jQuery 无法从本地主机检索数据

    我有一个非常简单的 jQuery 来检索我最新的推文 getJSON http twitter com statuses user timeline username json count 1 function data tweet tex
  • 点击取消时 htpasswd 被绕过

    在我的 htaccess 中 我有以下代码 用于保存 admin 区域 如果我提供了错误的用户名密码 它会不断弹出正确的用户名 但如果我按取消 我可以看到我的限制区域 而不是加载错误页面 这是怎么回事 谢谢 AuthName Restric
  • Apache2 mod_wsgi 403 禁止错误

    我已经正确配置了它 但后来我决定重新安装我的 Debian 顺便从 wheezy 切换到 jessie 版本 问题是这样的 我有一个 python mod wsgi 应用程序 mnt doc Python www index py ls l
  • PHP:如何访问根目录之外的下载文件夹? [复制]

    这个问题在这里已经有答案了 我如何创建一个 PHP 脚本 页面 允许会员 买家下载存储在根目录之外的下载文件夹中的压缩文件 产品 我正在使用 Apache 服务器 请帮忙 谢谢 保罗 G 您可能会在 soac 提供的链接中找到一些更好的信息
  • 配置 shiro.ini 以进行 JDBC 连接

    作为我新的一年学习新技术计划的一部分 我开始尝试使用 Apache Shiro 安全框架 我设法让基本示例正常工作 该示例将用户名 密码和角色存储在 shiro ini 文件中 但是当我修改 shiro ini 文件以使用 JDBC 时 它
  • 仅当未找到文件时才重定向请求?

    我希望有一种方法可以使用 mod rewrite 和 Apache 来做到这一点 但也许还有另一种方法可以考虑 在我的网站上 我为客户的网站重新设计版本设置了目录 如果网络根目录是 home blah www 客户端目录将是 home bl
  • PHP 文件由浏览器下载,而不是由本地开发服务器(MAMP)处理

    一切都很顺利 直到我添加AddHandler application x httpd php5s php到本地服务器文档根目录中的 htaccess 文件 根据我正在使用的站点 我经常更改该文件 因为我访问时这样做了http 本地主机 88

随机推荐

  • Java 中的克隆

    我在网上读到一段关于克隆的内容 但我不太明白 所以有人能解释清楚吗 如果类具有 Final 字段 则无法在克隆方法中为这些字段赋予值 这会导致正确初始化对象的最终字段出现问题 如果最终字段引用对象的某些内部状态 则克隆的对象最终会共享内部状
  • 恢复分页库 3 中的滚动位置

    我将 Paging Library 3 与 RemoteMediator 一起使用 其中包括从网络和本地 Room 数据库加载数据 每次我滚动到 RecyclerView 中的某个位置 导航到另一个片段 然后导航回带有列表的片段时 滚动状态
  • LibGDX 。绘制多行文本

    我正在尝试使用 libGDX 中的 BitmapFont 编写大文本 但它显示在一行上 用户只能看到文本的第一部分 如何使 bitmapFont 自动换行并在屏幕上显示整个文本 要么使用 n用于手动换行并通过渲染字体font drawMul
  • Node 和 Express:如何实现基本的 webhook 服务器

    我很难找到教程 我是 webhooks 的新手 除了对它们应该如何工作的一些基本描述之外 还没有使用或见过它们 我们的用例是在有新记录时更新 API 的用户 由于我们使用 Kafka 并已确定 最终一致性 因此另一个用途可能是在无法从 Ka
  • ListView 行标记 ala GMail

    我有兴趣创建一个 ListView 其中每一行都按照 GMail 3 0 中的方式进行标记 这会很好地分离左右 ListFragment 其他示例还包括 2 3 4 上的 Google 日历 例如颜色标记位于 ListView 的左侧 请参
  • 如何在带有 Boost Spirit 的 AST 中使用只有一个属性的类?

    我想使用 Boost Spirit 将文件解析为 AST 我的 AST 的根源是一个只有一个属性的类 typedef boost variant
  • 根据搜索条件查找列名和行名

    我有以下 Excel 电子表格 A B C D E F G 1 Q1 Q2 Q3 Q4 Search criteria 60 2 Asset 1 15 85 90 70 Column name Q4 3 Asset 2 40 80 45 6
  • Laravel getQueryString() 不带 &

    我正在尝试将包含部分 URL 的变量输出到我的页面上的 Javascript 中 当我这样做时 它会改变任何 into amp 这会破坏 URL 我尝试过使用str replace html entity decode htmlspecia
  • 如何使 C# Powershell Invoke 成员线程安全

    我有这项服务 当收到请求时 运行 powershell 命令并返回结果 这是调用者类代码 public class PowerShellScript public PowerShellScript public Object Invoke
  • 如何在面向 python 2.5.1 的项目目录中包含和使用 .eggs/pkg_resources

    我有 python egg 文件 它们存储在某些 py 代码的相对位置 问题是 我的目标是 python 2 5 1 计算机 这要求我的项目自包含在一个文件夹中 数十万台运行 Sugar 的 OLPC XO 8 2 1 版本笔记本电脑 这意
  • 将 Java Web 应用程序与 SAML SSO 集成

    我有一个 Restful Java Web 应用程序 将部署到许多不同的环境 在我的控制范围之外 这些环境将使用 SAML 2 0 SSO 解决方案 我的应用程序 我认为是 服务提供商 需要存储用户生成的状态 并使用内部业务逻辑来确定允许哪
  • 管理MapView的缓存

    我制作了一个基于 Google Maps API 的应用程序 问题是我的应用程序是为了在野外 没有网络的地方使用而设计的 因此 我想管理缓存 以确保在旅途中保存特定的图块并可用 我想在数据库中重定向它们 但任何方法都可以 目前 除了尝试重新
  • Facebook Javascript SDK:getLoginStatus 没有响应

    按照指示这一页 https developers facebook com docs javascript quickstart v2 5 我将 SDK 片段包含到我的页面中 但由于我没有任何 Facebook 应用程序 并且我只是尝试在我
  • Jest 和 Webpack - 意外的令牌导入

    我很难设置我的测试套件 我有一个 React Redux Webpack 项目 正在尝试添加 Jest 我可以运行测试 但是我无法import任何东西到我的测试文件中 例如 当尝试导入我的 redux 操作时 我收到以下错误 Users n
  • 如何在 Android 中处理来电后从之前的状态恢复 Activity?

    我正在创建从服务器下载 4 5 张图像并显示为图库的应用程序 在正常情况下工作正常 但是当有来电或设备处于睡眠模式时 我的活动从 onResume 之后开始加载数据 我无法从以前的活动状态加载数据 恢复活动 有什么解决办法吗 Thanks
  • 从文本块中提取电子邮件地址

    如何创建包含在文本块中的电子邮件地址数组 我试过了 addrs text scan map e e 1 1 但 毫不奇怪 它不能可靠地工作 对于一个 稍微 更好的正则表达式怎么样 b A Z0 9 A Z0 9 A Z 2 4 b 你可以在
  • 将 Python PuDB 调试器与 pytest 结合使用

    在我选择的测试库之前unittest 它与我最喜欢的调试器 PuDB 一起工作 不是PDB 使用 PuDB 与unittest 我粘贴import pudb pudb set trace 代码行之间 然后我执行了python m unitt
  • 使用直接显示从 DVD 抓取图像

    有人知道使用 DirectShow 和 C 从 DVD 抓取图像的方法吗 使用 DVD 渲染器时不支持样本采集器 并且如果我使用 GetCurrentImage VMR9 无窗口控件的一部分 它似乎不起作用 查看 directshow 示例
  • ASP.NET MVC 中 ViewModel 验证的最佳实践

    我在用DataAnnotations验证我的ViewModel在客户端jquery validate unobtrusive并在服务器端ASP NET MVC应用 不久前 我发现我可以这样编写验证 Required ErrorMessage
  • Apache Nutch 2.1 不同批次 ID(空)

    我使用 Apache Nutch 2 1 爬行了几个网站 爬行时 我在很多页面上看到以下消息 前任 跳绳http www domainname com news subcategory 111111 index html http www