使用Nutch爬取指定URL列表

2023-11-30

我有一百万个 URL 列表需要获取。我使用这个列表作为坚果种子并使用基本的crawl命令 Nutch 去取它们。但是，我发现 Nutch 会自动获取不在列表中的 URL。我确实将爬网参数设置为-深度1 -topN 1000000。但它不起作用。有谁知道如何做到这一点？

将此属性设置为nutch-site.xml。（默认情况下为 true，因此它将外链添加到crawldb）

<property>
  <name>db.update.additions.allowed</name>
  <value>false</value>
  <description>If true, updatedb will add newly discovered URLs, if false
  only already existing URLs in the CrawlDb will be updated and no new
  URLs will be added.
  </description>
</property>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

nutch

webcrawler

使用Nutch爬取指定URL列表的相关文章

.net 4.0 中并行网络爬虫的最佳实践

我需要通过代理下载很多页面构建多线程网络爬虫的最佳实践是什么 Parallel For Foreach 是否足够好还是对于繁重的 CPU 任务更好您对以下代码有何看法 var multyProxy new MultyProxy mul
维基百科文本下载

我正在寻找为我的大学项目下载完整的维基百科文本我是否必须编写自己的蜘蛛才能下载此内容或者是否有在线维基百科的公共数据集为了给你一些我的项目的概述我想找出我感兴趣的几篇文章中有趣的单词但是为了找到这些有趣的单词我计划应用 tf i
Robots.txt - 多个用户代理的抓取延迟的正确格式是什么？

下面是一个示例机器人 txt文件允许多个用户代理 with 多次抓取延迟对于每个用户代理抓取延迟值仅供说明之用在真实的 robots txt 文件中会有所不同我在整个网络上搜索了正确的答案但找不到有太多混合的建议我不知道哪个是正
Googlebot 会抓取用 JavaScript 对 DOM 所做的更改吗？

对于 SEO 我的任务是添加一个rel nofollow 所有外部链接最简单最不显眼的添加方式rel nofollow 每个外部链接都带有一些 jQuery 我已经做得很好但我现在想知道 Google 是否会看到 jQuery 文档加
如何抓取foursquare签到数据？

是否可以通过贪心的方式从foursquare中爬取签到数据即使我与所有用户没有友谊就像抓取公开的 Twitter 消息一样如果您有什么经验或建议请分享谢谢如果您有包含 foursquare 链接的公开推文您可以通过发出 HEA
Symfony2 Crawler - 将 UTF-8 与 XPATH 结合使用

我正在使用 Symfony2 Crawler Bundle 来使用 XPath 除了编码之外一切正常我想使用 UTF 8 编码但 Crawler 不知何故没有使用它我注意到因为 nbsp 被转换为 nbsp 这是一个已知问题 UTF
在多个 HttpWebRequest 中使用相同的 CookieContainer 是否安全？

我正在做一种 WebCrawler 我需要在请求之间保留 Cookie 状态我异步下载所有页面创建新的 HttpWebRequest 实例但设置相同的 CookieContainer 页面可以写入和读取cookie 我可以安全地做吗
将网页抓取的结果存储到数据库中

我已经使用 python 编写了一段用于网页抓取的代码该代码使用 selenium 从亚马逊提取 Macbook 的数据现在我想将这些值存储在 Excel 或 MySql 中特定产品行中有各种 html css 类和一个包含产品所有参
WebClient 下载字符串与 WebBrowser 查看源代码不同

我正在创建一个 C 4 0 应用程序来使用 Web 客户端下载网页内容网络客户端功能 public static string GetDocText string url string html string Empty try usin
如何通过php从外部网页获取内容？

我想获取网页中的标题描述和关键字我知道实现这项工作的 3 种方法 a 使用CURL b 使用 fopen c 使用 get meta data 奇怪的是上述每一项都不能每次都正常工作对于相同的网址有时我可以获得内容有时它会
如何保护/监控您的网站免遭恶意用户抓取

情况网站内容受用户名密码保护并非全部受控因为他们可以是试用测试用户由于用户名密码限制普通搜索引擎无法获取它恶意用户仍然可以登录并将会话 cookie 传递给 wget r 或其他东西问题是监控此类活动并对其做出响应的最佳
Scrapy 遭遇 DEBUG：爬行（400）

我正在尝试使用 Scrapy 抓取页面 https zhuanlan zhihu com wangzhenotes 我运行这个命令 scrapy shell https zhuanlan zhihu com wangzhenotes and
如何设置Robots.txt或Apache仅在特定时间允许爬虫？

由于 24 小时内流量分布不均匀我希望在高峰时段禁止爬虫在非繁忙时段允许爬虫有没有一种方法可以实现这一目标编辑感谢所有的好建议这是我们找到的另一个解决方案 2bits com 有一篇关于设置 IPTables 防火墙以限制来自某
Scrapy 是否可以从原始 HTML 数据中获取纯文本？

例如 scrapy shell http scrapy org content hxs select id content extract 0 print content 然后我得到以下原始 HTML 代码 div h2 Welcome
将 Nutch 爬虫与 Solr 结合使用

我可以将 Apache Nutch 爬虫程序与 Solr 索引服务器集成吗 Edit 我们的一位开发人员从这些帖子中提出了一个解决方案运行 Nutch 和 Solr http wiki apache org nutch RunningNu
在 C# 中实现动态 Web Scraper 的逻辑

我希望在 C 窗口窗体中开发一个 Web scraper 我想要完成的任务如下从用户处获取 URL 在WINForms中的IE UI控件嵌入式浏览器中加载网页允许用户选择文本连续小不超过 50 个字符从加载的网页当用户希望
如何查找网站上的所有链接/页面

是否可以找到任何给定网站上的所有页面和链接我想输入一个 URL 并生成该站点所有链接的目录树我查看过 HTTrack 但它下载了整个站点我只需要目录树查看链接检查器 https linkchecker github io linkc
Scrapy 使用带有规则的 start_requests

我找不到任何使用 start requests 与规则的解决方案我也没有在互联网上看到任何关于这两个的示例我的目的很简单我想重新定义 start request 函数以获得捕获请求期间所有异常的能力并在请求中使用元这是我的蜘蛛的代
Symfony 2 功能测试外部 URL

无论我做什么我总能得到一个 Symfony Component HttpKernel Exception NotFoundHttpException 否已找到的路线 in crawler gt text 当我尝试使用以下命令请求外部
制作一个网络爬虫/蜘蛛

我正在考虑制作一个网络爬虫蜘蛛但我需要有人为我指明正确的方向才能开始基本上我的蜘蛛将搜索音频文件并为其建立索引我只是想知道是否有人对我应该如何做有任何想法我听说用 PHP 完成它会非常慢我知道 vb net 那么这能派上用场吗

随机推荐

从泽西岛的 URI 获取处理程序？

里面一个ContainerResponseFilter我想得到处理程序即所在的班级 Path和 GET PUT 带注释的方法与我将提供的 URL 匹配 Example someJerseyVariable getHandlerForUR
计算div标签的平均高度和平均宽度

我需要获取 html 文档的平均 div 高度和宽度我已经尝试过这个解决方案但它不起作用 import numpy as np average width np mean div attrs width for div in my do
UITextField 格式为 xx-xx-xxx

我正在使用 UITextField 我希望它应该采用 xx xx xxx 数字格式的字符有什么帮助吗需要对具有可变格式的电话号码很好地做到这一点这就是我写的随意重用首先我有一种过滤格式化字符串的方法其中是数字任何其他字符都
虚拟化 ItemControl？

我有一个ItemsControl但是包含我想要虚拟化的数据列表VirtualizingStackPanel IsVirtualizing True 似乎不适用于ItemsControl 确实是这样吗还是有另一种我不知道的方法可以做到这一点
使用委托在视图控制器之间进行通信

在提出一些问题后我学会了如何将订单从一个视图控制器发送到另一个视图控制器并设法编写其工作代码但没有任何反应在我的项目中我有两个视图控制器名为sayfa1 and sayfa23 当按钮位于sayfa1单击它将打开sayfa23并
如何使用dom解析器java解析xml中的同名标签？

如何使用dom解析器java解析xml中的相同名称标签我有以下 xml 文件我想使用 java 中的 dom 解析器来解析该文件
scanf("%c") 自动读取 10

void main int cnt 1 char i while cnt lt 4 printf nenter the character scanf c i if i gt 64 i lt 91 printf ncharacter is
用于标记代码的 Eclipse 插件

有没有Eclipse插件可以标记代码就像用荧光笔一样有人知道这是否可能吗您可以用书签标记要突出显示的行然后设置背景颜色以突出显示书签你必须进去 preferences gt General gt Editors gt Text E
TypeORM 查找 where 条件 AND OR 链接

我正在尝试使用存储库查找来编写查询但似乎没有找到适合我的查询的解决方案我知道这可以通过查询生成器或 Raw 条件实现但如果可能的话我想使用存储库查找我想要达到的条件是字段1 字符串 AND 字段2为空OR字段2 gt 日期目前唯
合并两个相同类型的案例类，除了某些字段

如果您有这样的案例类 case class Foo x String y String z String 你有两个实例例如 Foo x1 y1 z1 Foo x2 y2 z2 是否可以将实例 1 合并到实例 2 中除了字段 z 之外结
在 Android 中使用 cURL

我想在我的 android 应用程序中以本机代码使用 cURL 库使用最新的 NDK r5b 经过在线研究后似乎在 android 中使用 cURL 的唯一方法是构建包含curl 的整个 android 源代码树并且以某种方式生成 c
iDevice for Dummies：一台设备可以分配多个配置（个人/企业）吗？ [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心是否可以为一个 iDevice 分配多个规定老实说
触发器从另一个表更新总和 MySQL

我有一个数据库用于跟踪我所在联赛的统计数据和平均值我有一个结果表和一个排名表我将结果中的分数添加到排名中的总体分数中我目前有一个查询它成功地将结果中的分数添加到积分表中但是当我添加新结果时排名不会更新这是我的查询
C / C++ / C#：如何执行“mount -a”

问题在 C C C 中我需要 C 但 C 和 C 也可以如何在 Linux 上执行 mount a 我的意思是以编程方式 without开始一个像这样的过程 system mount a Edit 注意 a 我的问题实际上不是关于如
Express.JS：将 cookie 附加到静态提供的内容

我使用 Express JS 来提供静态内容 express use express static When index html服务完成后我想在响应旁边发送一个 cookie 指示用户是否已登录通常应该使用res cookie 但我不
如何将厨师食谱中的一种资源的价值传递到另一种资源？

我正在尝试更改一个资源中的属性并希望在另一资源中使用更新后的值但更新后的值未反映在另一资源中请帮我 Code node oracle asm disks each key do disk Chef Log info I am in c
如何从命令行将参数传递给 Makefile？

如何从命令行将参数传递给 Makefile 我明白我能做到 make action VAR value value with Makefile VAR default action echo VAR 我如何获得以下行为 make actio
带 SVG 终端的 Gnuplot 4.7 超链接和超文本

我正在 Gnuplot 4 7 中使用 SVG 终端并尝试在浏览器上同时使用超文本和超链接分别通过鼠标悬停和鼠标单击绘制的数据点来激活鼠标悬停的工作原理要感谢 stackoverflow 对我上一个问题的帮助我的数据输入文件如下所示
JComponent 和 ComponentUI 委托之间的绑定事件

我已经开始尝试创建普通的 MVC Swing 组件我对M和C没有任何问题但是V向我抛出了一个我通常无法解决的问题问题是 Controller 是组件的主类例如 MyComponent 并且它扩展了 JComponent View 是
使用Nutch爬取指定URL列表

我有一百万个 URL 列表需要获取我使用这个列表作为坚果种子并使用基本的crawl命令 Nutch 去取它们但是我发现 Nutch 会自动获取不在列表中的 URL 我确实将爬网参数设置为深度1 topN 1000000 但它不起作用

使用Nutch爬取指定URL列表

使用Nutch爬取指定URL列表 的相关文章

随机推荐

热门标签

使用Nutch爬取指定URL列表的相关文章