如何使用 nutch 插件解析位于特定 HTML 标签中的内容？

2024-01-29

我正在使用 Nutch 抓取网站，我想解析 Nutch 抓取的 html 页面的特定部分。例如，

  <h><title> title to search </title></h>
   <div id="abc">
        content to search
   </div>
   <div class="efg">
        other content to search
   </div>

我想解析 id ="abc" 和 class="efg" 等的 div 元素。

我知道我必须创建一个用于自定义解析的插件，因为 Nutch 提供的 htmlparser 插件会删除所有 html 标签、css 和 javascript 内容，只留下文本内容。我参考了这个博客http://sujitpal.blogspot.in/2009/07/nutch-custom-plugin-to-parse-and-add.html http://sujitpal.blogspot.in/2009/07/nutch-custom-plugin-to-parse-and-add.html但我发现这是用于解析 html 标签，而我想解析具有特定值的属性的 html 标签。我发现 Jericho 被提到对于解析特定的 html 标签很有用，但我可以找到与 Jericho 相关的 nutch 插件的任何示例。

我需要一些关于如何设计基于具有特定值的属性的标签来解析 html 页面的策略的指导。

您可以使用此插件根据 CSS 规则从页面中提取数据：

https://github.com/BayanGroup/nutch-custom-search https://github.com/BayanGroup/nutch-custom-search

在您的示例中，您可以按以下方式配置它：

<config>
    <fields>
        <field name="custom_content" />
    </fields>
    <documents>
        <document url=".+" engine="css">
            <extract-to field="custom_content">
                <text>
                    <expr value="#abc" />
                </text>
                <text>
                    <expr value=".efg" />
                </text>
            </extract-to>
        </document>
    </documents>
</config>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

nutch

如何使用 nutch 插件解析位于特定 HTML 标签中的内容？的相关文章

数据库表中ID列的命名

我想知道人们对数据库表中 ID 列的命名有何看法如果我有一个名为 Invoices 的表其中包含一个标识列的主键我会将该列称为 InvoiceID 这样就不会与其他表发生冲突而且它是什么很明显我目前工作的地方他们已将所有 ID 列

随机推荐

getResourceAsStream() 返回 null

我有以下问题 InputStream input FileHandle class getResourceAsStream data sounds back ogg 返回 null 但是 InputStream input FileHand
带破折号的 Asp.net Web Api 查询字符串参数

我有一个Web Apisearch 方法接收以下参数 DataContract Namespace Name search public class SearchParameters DataMember Name property nam
Ruby 和 IMAP - 使用 Oauth 2.0 访问 Office 365

因此众所周知 MS 禁用了 IMAP 进行基本身份验证我试图弄清楚如何使用 ruby 而不是 ruby on Rails 让 OAUTH 2 0 工作我有 Azure APP 和所需的一切我认为但我找不到与 ruby 和获取访问令牌
如何使用 PowerShell 更改文件夹选项“打开文件资源管理器到”

我正在寻找一种使用 PowerShell 脚本来更改此设置的方法默认设置是快速访问而且我要This PC 我看了一些帖子但没有人想要这样的东西如何使用 PowerShell 更改文件夹选项设置您需要设置LaunchTo注册表项下的属
删除 WPF DataGrid 中的一行

我有一个数据网格其中删除图标作为一列更新图标作为另一列单击更新后第一个单元格将获得焦点单击删除时我想删除所选行但收到错误使用 ItemsSource 时操作无效改为使用 ItemsControl ItemsSource
Excel中的VBA代码使标签之间的文本变为粗体

我有一个 csv 文件其中包含 html 标签和来表示粗体文本即这些标签之间的几个单词在单元格内较长的文本块中应该是粗体有没有办法在Excel中使用vba代码来剥离标签并使标签之间的文本变为粗体注意给定单元格内有时存在多组
等待所有工作线程结束[重复]

这个问题在这里已经有答案了可能的重复 C 线程锁混淆 https stackoverflow com questions 1280723 c sharp threading lock confusion 我有以下问题我有一个监视类它
在数组的其他“元素”中插入“元素”（循环）php

我的代码使图像随机出现在页面内但是如何在这些图像之间插入一个元素在我的例子中是一个 div Example 原始代码显示图像如下 image3 png image4 png image2 pn
向 Html 模板添加属性会出现错误“对象不允许添加或更改属性”

我正在尝试从 Google 电子表格中检索数据但是当我尝试添加data反对我的htmlTemplate对象我收到错误对象不允许添加或更改属性我的代码非常简单 function showDialog var htmlTemplate
如何在运行时更改@FeignClient名称

我使用 Spring Cloud Netflix 来构建我的微服务 FeignClient name ms cloud configuration MsCloudClientConfig class public interface Tes
CodeIgniter 和 htaccess - 通过 AuthType 保护特定控制器及其方法？

我有一个管理控制器其中有一些我想要保护的方法 http blabla com admin http blabla com admin http blabla com admin edit coupon http blabla com ad
在运行 Python 单元测试套件时，可以传递哪些数字作为详细信息？

Python 单元测试框架有一个冗长的概念我似乎在任何地方都找不到定义例如我正在运行这样的测试用例就像文档中一样 http docs python org library unittest html basic example su
我如何在 primefaces 中显示带 html 标签的文本

我得到一个字符串 lt p editor gt 像这样 lt b gt This is bold text lt b gt 我想展示 b This is bold text b 在xhtml页面中我可以使用什么标签来做到这一点使用输出文
仅对特定 Rack 网站使用一些中间件

我有一个机架服务器我在其中运行多个网站 use Rack Session Cookie app lambda do env case Kek Mobile when env HTTP HOST mobi kek com require F
在 Swift 中将 GPS 坐标转换为城市名称/地址

我有一个纬度经度位置我想将其转换为 Swift 中的位置名称字符串做这个的最好方式是什么我相信最好使用reverseGeocodeLocation函数但不完全确定如何使用这是我到目前为止所拥有的 func locationMan
如何在应用程序的 AndroidManifest.xml 中引用库项目中的图标

我试图对从图书馆项目派生的所有应用程序使用相同的应用程序图标我认为这就像实施所提供的建议一样简单在这个线程中 https stackoverflow com questions 6241429 how to reference a dra
广告拦截器检测又称为 Adblock Plus

在 Google 和 Stackoverflow 搜索了几个小时后我找不到解决方案我现在想做的是检测 Adblock plus 并显示一条简单的消息我想做的是检测 Adblock pluswithout使用 JavaScript 文件
在异步任务完成应用程序类中的后台进程之前调用的活动类

我有一个扩展应用程序类的类以在任何活动启动之前加载一些数据我在那里做了一些 json 解析但问题是 Activity 类在doInBackground在应用程序类中完成这就是为什么我第一次得到一个没有任何值的变量这是我的代码我需
如何根据条件合并具有不同标题但相同数据的csv文件

我有以下数据集 https drive google com drive folders 1NRelNsXQJ7MTNKcm T69N6r5ZsOyFmTS usp sharing https drive google com drive
如何使用 nutch 插件解析位于特定 HTML 标签中的内容？

我正在使用 Nutch 抓取网站我想解析 Nutch 抓取的 html 页面的特定部分例如

如何使用 nutch 插件解析位于特定 HTML 标签中的内容？

如何使用 nutch 插件解析位于特定 HTML 标签中的内容？ 的相关文章

随机推荐

热门标签

如何使用 nutch 插件解析位于特定 HTML 标签中的内容？的相关文章