nutch

将 Nutch 爬虫与 Solr 结合使用

我可以将 Apache Nutch 爬虫程序与 Solr 索引服务器集成吗 Edit 我们的一位开发人员从这些帖子中提出了一个解决方案运行 Nutch 和 Solr http wiki apache org nutch RunningNu

Lucene Solr nutch

如何在 Intellij Idea 上打开 Ant 项目（Nutch Source）？

我想打开 Nutch 2 1 源文件 http www eu apache org dist nutch 2 1 http www eu apache org dist nutch 2 1 在 Intellij IDEA 以下是如何在 Ec

Ant intellijidea nutch

Apache Nutch 2.1 不同批次 ID（空）

我使用 Apache Nutch 2 1 爬行了几个网站爬行时我在很多页面上看到以下消息前任跳绳http www domainname com news subcategory 111111 index html http www

apache nutch webcrawler

Windows 中的 Nutch：无法设置路径权限

我尝试在 Windows 计算机上使用 Solr 和 Nutch 但收到以下错误 Exception in thread main java io IOException Failed to set permissions of path

Windows Solr Hadoop Cygwin nutch

使用Nutch如何抓取使用ajax的网页的动态内容？

我正在使用 apache Nutch 1 10 来抓取网页并提取页面中的内容一些链接包含在调用 ajax 时加载的动态内容 Nutch无法抓取和提取ajax的动态内容我该如何解决这个问题有什么解决办法吗如果是请帮助我回答提前致谢

Java AJAX Plugins webcrawler nutch

如何修改Solr给出的搜索结果页面？

我打算做一个利基搜索引擎我使用 apache nutch 1 6 作为爬虫使用 apache solr 3 6 2 作为搜索器我必须说网络上有关这些技术的更新信息非常少我按照这个教程http wiki apache org nut

Java Solr searchengine nutch

使用 nutch REST api 的 Nutch 弹性索引器中的未知问题

我试图使用 REST 端点公开 nutch 但在索引器阶段遇到了问题我正在使用 elasticsearch 索引编写器将文档索引到 ES 我使用了 NUTCH HOME runtime deploy bin nutch startserv

elasticsearch nutch

将 URL 参数添加到 Nutch/Solr 索引和搜索结果

我找不到任何关于如何设置 nutch 来不过滤删除我的 URL 参数的提示我想抓取一些页面并为其建立索引其中大量内容隐藏在相同的基本 URL 后面例如 news jsp id 1 news jsp id 2 news jsp id

Solr webcrawler nutch

如何扩展Nutch进行文章爬取

我正在寻找一个框架来抓取文章然后我找到了Nutch 2 1 这是我的计划和每个计划的问题 1 将文章列表页面添加到 url seed txt 这里有一个问题我真正想要索引的是文章页面而不是文章列表页面但是如果我不允许列表页面被索引

webcrawler nutch

为什么 Nutch 似乎不知道“Last-Modified”？

我将 Nutch 设置为 60000 的 db fetch interval default 这样我就可以每天爬行如果我不这样做当我第二天抓取时它甚至不会查看我的网站但是当我第二天进行爬网时昨天获取的每个页面都会获取 200 响应

webcrawler nutch

如何使用 nutch 插件解析位于特定 HTML 标签中的内容？

我正在使用 Nutch 抓取网站我想解析 Nutch 抓取的 html 页面的特定部分例如

nutch

Nutch：通过在标头中放置 cookie 进行身份验证

令我惊讶的是让 Nutch 能够抓取需要身份验证的网站部分的支持或信息如此之少我知道 Apache Nutch 目前可能无法但显然希望 http wiki apache org nutch HttpPostAuthentication

http authentication cookies Solr nutch

Nutch 爬取文档的 Elasticsearch 映射面临问题

使用 nutch 和 elasticsearch 进行爬行时面临一些严重的问题我们的应用程序中有两个数据存储引擎 MySql 弹性搜索假设我有 10 个 url 存储在 mysql 数据库的 urls 表中现在我想在运行时从表中获取这

mysql elasticsearch webcrawler nutch

无法访问作业跟踪器的 hadoop web ui [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我正在尝试

Jetty Hadoop nutch

如何使用nutch解析html并将特定标签索引到solr？

我已经安装了 nutch 和 solr 来抓取网站并在其中进行搜索如您所知我们可以使用nutch的解析元标记插件将网页的元标记索引到solr中 http wiki apache org nutch IndexMetatags 现在我想知

Solr nutch apachetika

使用Nutch爬取指定URL列表

我有一百万个 URL 列表需要获取我使用这个列表作为坚果种子并使用基本的crawl命令 Nutch 去取它们但是我发现 Nutch 会自动获取不在列表中的 URL 我确实将爬网参数设置为深度1 topN 1000000 但它不起作用

nutch webcrawler

Nutch “http.agent.name”中未列出代理

Exception in thread main java lang IllegalArgumentException Fetcher No agents listed in http agent name property at org

webcrawler nutch

使用 Nutch 重新抓取 URL，仅用于更新的网站

我使用 Nutch 2 1 抓取了一个 URL 然后我想在页面更新后重新抓取页面我怎样才能做到这一点我如何知道页面已更新你根本做不到您需要重新抓取页面来控制它是否已更新因此根据您的需求对页面域进行优先级排序并在一段时间内重

apache Solr Lucene nutch webcrawler

http://www.xxx.com/ skipped. Content of size 67099 was truncated to 59363

如果提示http www xxx com skipped Content of size 67099 was truncated to 59363 在nutch site xml中添加

nutch nutch java