使用Nutch爬取指定URL列表

2023-11-30

我有一百万个 URL 列表需要获取。我使用这个列表作为坚果种子并使用基本的crawl命令 Nutch 去取它们。但是,我发现 Nutch 会自动获取不在列表中的 URL。我确实将爬网参数设置为-深度1 -topN 1000000。但它不起作用。有谁知道如何做到这一点?


将此属性设置为nutch-site.xml。 (默认情况下为 true,因此它将外链添加到crawldb)

<property>
  <name>db.update.additions.allowed</name>
  <value>false</value>
  <description>If true, updatedb will add newly discovered URLs, if false
  only already existing URLs in the CrawlDb will be updated and no new
  URLs will be added.
  </description>
</property>
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用Nutch爬取指定URL列表 的相关文章

  • .net 4.0 中并行网络爬虫的最佳实践

    我需要通过代理下载很多页面 构建多线程网络爬虫的最佳实践是什么 Parallel For Foreach 是否足够好 还是对于繁重的 CPU 任务更好 您对以下代码有何看法 var multyProxy new MultyProxy mul
  • 维基百科文本下载

    我正在寻找为我的大学项目下载完整的维基百科文本 我是否必须编写自己的蜘蛛才能下载此内容 或者是否有在线维基百科的公共数据集 为了给你一些我的项目的概述 我想找出我感兴趣的几篇文章中有趣的单词 但是为了找到这些有趣的单词 我计划应用 tf i
  • Robots.txt - 多个用户代理的抓取延迟的正确格式是什么?

    下面是一个示例机器人 txt文件允许多个用户代理 with 多次抓取延迟对于每个用户代理 抓取延迟值仅供说明之用 在真实的 robots txt 文件中会有所不同 我在整个网络上搜索了正确的答案 但找不到 有太多混合的建议 我不知道哪个是正
  • Googlebot 会抓取用 JavaScript 对 DOM 所做的更改吗?

    对于 SEO 我的任务是添加一个rel nofollow 所有外部链接 最简单 最不显眼的添加方式rel nofollow 每个外部链接都带有一些 jQuery 我已经做得很好 但我现在想知道 Google 是否会看到 jQuery 文档加
  • 如何抓取foursquare签到数据?

    是否可以通过贪心的方式从foursquare中爬取签到数据 即使我与所有用户没有友谊 就像抓取公开的 Twitter 消息一样 如果您有什么经验或建议 请分享 谢谢 如果您有包含 foursquare 链接的公开推文 您可以通过发出 HEA
  • Symfony2 Crawler - 将 UTF-8 与 XPATH 结合使用

    我正在使用 Symfony2 Crawler Bundle 来使用 XPath 除了编码之外 一切正常 我想使用 UTF 8 编码 但 Crawler 不知何故没有使用它 我注意到因为 nbsp 被转换为 nbsp 这是一个已知问题 UTF
  • 在多个 HttpWebRequest 中使用相同的 CookieContainer 是否安全?

    我正在做一种 WebCrawler 我需要在请求之间保留 Cookie 状态 我异步下载所有页面 创建新的 HttpWebRequest 实例 但设置相同的 CookieContainer 页面可以写入和读取cookie 我可以安全地做吗
  • 将网页抓取的结果存储到数据库中

    我已经使用 python 编写了一段用于网页抓取的代码 该代码使用 selenium 从亚马逊提取 Macbook 的数据 现在我想将这些值存储在 Excel 或 MySql 中 特定产品行中有各种 html css 类和一个包含产品所有参
  • WebClient 下载字符串与 WebBrowser 查看源代码不同

    我正在创建一个 C 4 0 应用程序来使用 Web 客户端下载网页内容 网络客户端功能 public static string GetDocText string url string html string Empty try usin
  • 如何通过php从外部网页获取内容?

    我想获取网页中的 标题 描述和关键字 我知道实现这项工作的 3 种方法 a 使用CURL b 使用 fopen c 使用 get meta data 奇怪的是 上述每一项都不能每次都正常工作 对于相同的网址 有时 我可以获得内容 有时 它会
  • 如何保护/监控您的网站免遭恶意用户抓取

    情况 网站内容受用户名 密码保护 并非全部受控 因为他们可以是试用 测试用户 由于用户名 密码限制 普通搜索引擎无法获取它 恶意用户仍然可以登录并将会话 cookie 传递给 wget r 或其他东西 问题是监控此类活动并对其做出响应的最佳
  • Scrapy 遭遇 DEBUG:爬行(400)

    我正在尝试使用 Scrapy 抓取页面 https zhuanlan zhihu com wangzhenotes 我运行这个命令 scrapy shell https zhuanlan zhihu com wangzhenotes and
  • 如何设置Robots.txt或Apache仅在特定时间允许爬虫?

    由于 24 小时内流量分布不均匀 我希望在高峰时段禁止爬虫 在非繁忙时段允许爬虫 有没有一种方法可以实现这一目标 编辑 感谢所有的好建议 这是我们找到的另一个解决方案 2bits com 有一篇关于设置 IPTables 防火墙以限制来自某
  • Scrapy 是否可以从原始 HTML 数据中获取纯文本?

    例如 scrapy shell http scrapy org content hxs select id content extract 0 print content 然后 我得到以下原始 HTML 代码 div h2 Welcome
  • 将 Nutch 爬虫与 Solr 结合使用

    我可以将 Apache Nutch 爬虫程序与 Solr 索引服务器集成吗 Edit 我们的一位开发人员从这些帖子中提出了一个解决方案 运行 Nutch 和 Solr http wiki apache org nutch RunningNu
  • 在 C# 中实现动态 Web Scraper 的逻辑

    我希望在 C 窗口窗体中开发一个 Web scraper 我想要完成的任务如下 从用户处获取 URL 在WINForms中的IE UI控件 嵌入式浏览器 中加载网页 允许用户选择文本 连续 小 不超过 50 个字符 从加载的网页 当用户希望
  • 如何查找网站上的所有链接/页面

    是否可以找到任何给定网站上的所有页面和链接 我想输入一个 URL 并生成该站点所有链接的目录树 我查看过 HTTrack 但它下载了整个站点 我只需要目录树 查看链接检查器 https linkchecker github io linkc
  • Scrapy 使用带有规则的 start_requests

    我找不到任何使用 start requests 与规则的解决方案 我也没有在互联网上看到任何关于这两个的示例 我的目的很简单 我想重新定义 start request 函数以获得捕获请求期间所有异常的能力 并在请求中使用元 这是我的蜘蛛的代
  • Symfony 2 功能测试外部 URL

    无论我做什么 我总能得到一个 Symfony Component HttpKernel Exception NotFoundHttpException 否 已找到 的路线 in crawler gt text 当我尝试使用以下命令请求外部
  • 制作一个网络爬虫/蜘蛛

    我正在考虑制作一个网络爬虫 蜘蛛 但我需要有人为我指明正确的方向才能开始 基本上 我的蜘蛛将搜索音频文件并为其建立索引 我只是想知道是否有人对我应该如何做有任何想法 我听说用 PHP 完成它会非常慢 我知道 vb net 那么这能派上用场吗

随机推荐

  • 从泽西岛的 URI 获取处理程序?

    里面一个ContainerResponseFilter我想得到 处理程序 即所在的班级 Path和 GET PUT 带注释的方法与我将提供的 URL 匹配 Example someJerseyVariable getHandlerForUR
  • 计算div标签的平均高度和平均宽度

    我需要获取 html 文档的平均 div 高度和宽度 我已经尝试过这个解决方案 但它不起作用 import numpy as np average width np mean div attrs width for div in my do
  • UITextField 格式为 xx-xx-xxx

    我正在使用 UITextField 我希望它应该采用 xx xx xxx 数字格式的字符 有什么帮助吗 需要对具有可变格式的电话号码很好地做到这一点 这就是我写的 随意重用 首先 我有一种过滤格式化字符串的方法 其中 是数字 任何其他字符都
  • 虚拟化 ItemControl?

    我有一个ItemsControl但是包含我想要虚拟化的数据列表VirtualizingStackPanel IsVirtualizing True 似乎不适用于ItemsControl 确实是这样吗 还是有另一种我不知道的方法可以做到这一点
  • 使用委托在视图控制器之间进行通信

    在提出一些问题后 我学会了如何将订单从一个视图控制器发送到另一个视图控制器 并设法编写其工作代码 但没有任何反应 在我的项目中 我有两个视图控制器 名为sayfa1 and sayfa23 当按钮位于sayfa1单击它将打开sayfa23并
  • 如何使用dom解析器java解析xml中的同名标签?

    如何使用dom解析器java解析xml中的相同名称标签 我有以下 xml 文件 我想使用 java 中的 dom 解析器来解析该文件
  • scanf("%c") 自动读取 10

    void main int cnt 1 char i while cnt lt 4 printf nenter the character scanf c i if i gt 64 i lt 91 printf ncharacter is
  • 用于标记代码的 Eclipse 插件

    有没有Eclipse插件可以标记代码 就像用荧光笔一样 有人知道这是否可能吗 您可以用书签标记要突出显示的行 然后设置背景颜色以突出显示书签 你必须进去 preferences gt General gt Editors gt Text E
  • TypeORM 查找 where 条件 AND OR 链接

    我正在尝试使用存储库查找来编写查询 但似乎没有找到适合我的查询的解决方案 我知道这可以通过查询生成器或 Raw 条件实现 但如果可能的话 我想使用存储库查找 我想要达到的条件是字段1 字符串 AND 字段2为空OR字段2 gt 日期 目前唯
  • 合并两个相同类型的案例类,除了某些字段

    如果您有这样的案例类 case class Foo x String y String z String 你有两个实例 例如 Foo x1 y1 z1 Foo x2 y2 z2 是否可以将实例 1 合并到实例 2 中 除了字段 z 之外 结
  • 在 Android 中使用 cURL

    我想在我的 android 应用程序中以本机代码使用 cURL 库 使用最新的 NDK r5b 经过在线研究后 似乎在 android 中使用 cURL 的唯一方法是构建包含curl 的整个 android 源代码树 并且以某种方式生成 c
  • iDevice for Dummies:一台设备可以分配多个配置(个人/企业)吗? [关闭]

    这个问题不太可能对任何未来的访客有帮助 它只与一个较小的地理区域 一个特定的时间点或一个非常狭窄的情况相关 通常不适用于全世界的互联网受众 为了帮助使这个问题更广泛地适用 访问帮助中心 是否可以为一个 iDevice 分配多个规定 老实说
  • 触发器从另一个表更新总和 MySQL

    我有一个数据库 用于跟踪我所在联赛的统计数据和平均值 我有一个结果表和一个排名表 我将结果中的 分数 添加到排名中的总体 分数 中 我目前有一个查询 它成功地将结果中的分数添加到积分表中 但是 当我添加新结果时 排名不会更新 这是我的查询
  • C / C++ / C#:如何执行“mount -a”

    问题 在 C C C 中 我需要 C 但 C 和 C 也可以 如何在 Linux 上执行 mount a 我的意思是 以编程方式 without开始一个像这样的过程 system mount a Edit 注意 a 我的问题实际上不是关于如
  • Express.JS:将 cookie 附加到静态提供的内容

    我使用 Express JS 来提供静态内容 express use express static When index html服务完成后 我想在响应旁边发送一个 cookie 指示用户是否已登录 通常应该使用res cookie 但我不
  • 如何将厨师食谱中的一种资源的价值传递到另一种资源?

    我正在尝试更改一个资源中的属性 并希望在另一资源中使用更新后的值 但更新后的值未反映在另一资源中 请帮我 Code node oracle asm disks each key do disk Chef Log info I am in c
  • 如何从命令行将参数传递给 Makefile?

    如何从命令行将参数传递给 Makefile 我明白我能做到 make action VAR value value with Makefile VAR default action echo VAR 我如何获得以下行为 make actio
  • 带 SVG 终端的 Gnuplot 4.7 超链接和超文本

    我正在 Gnuplot 4 7 中使用 SVG 终端 并尝试在浏览器上同时使用超文本和超链接 分别通过鼠标悬停和鼠标单击绘制的数据点来激活 鼠标悬停的工作原理要感谢 stackoverflow 对我上一个问题的帮助 我的数据输入文件如下所示
  • JComponent 和 ComponentUI 委托之间的绑定事件

    我已经开始尝试创建普通的 MVC Swing 组件 我对M和C没有任何问题 但是V向我抛出了一个我通常无法解决的问题 问题是 Controller 是组件的主类 例如 MyComponent 并且它扩展了 JComponent View 是
  • 使用Nutch爬取指定URL列表

    我有一百万个 URL 列表需要获取 我使用这个列表作为坚果种子并使用基本的crawl命令 Nutch 去取它们 但是 我发现 Nutch 会自动获取不在列表中的 URL 我确实将爬网参数设置为 深度1 topN 1000000 但它不起作用