如何使用 nutch 插件解析位于特定 HTML 标签中的内容?

2024-01-29

我正在使用 Nutch 抓取网站,我想解析 Nutch 抓取的 html 页面的特定部分。例如,

  <h><title> title to search </title></h>
   <div id="abc">
        content to search
   </div>
   <div class="efg">
        other content to search
   </div>

我想解析 id ="abc" 和 class="efg" 等的 div 元素。

我知道我必须创建一个用于自定义解析的插件,因为 Nutch 提供的 htmlparser 插件会删除所有 html 标签、css 和 javascript 内容,只留下文本内容。我参考了这个博客http://sujitpal.blogspot.in/2009/07/nutch-custom-plugin-to-parse-and-add.html http://sujitpal.blogspot.in/2009/07/nutch-custom-plugin-to-parse-and-add.html但我发现这是用于解析 html 标签,而我想解析具有特定值的属性的 html 标签。我发现 Jericho 被提到对于解析特定的 html 标签很有用,但我可以找到与 Jericho 相关的 nutch 插件的任何示例。

我需要一些关于如何设计基于具有特定值的属性的标签来解析 html 页面的策略的指导。


您可以使用此插件根据 CSS 规则从页面中提取数据:

https://github.com/BayanGroup/nutch-custom-search https://github.com/BayanGroup/nutch-custom-search

在您的示例中,您可以按以下方式配置它:

<config>
    <fields>
        <field name="custom_content" />
    </fields>
    <documents>
        <document url=".+" engine="css">
            <extract-to field="custom_content">
                <text>
                    <expr value="#abc" />
                </text>
                <text>
                    <expr value=".efg" />
                </text>
            </extract-to>
        </document>
    </documents>
</config>
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 nutch 插件解析位于特定 HTML 标签中的内容? 的相关文章

  • 数据库表中ID列的命名

    我想知道人们对数据库表中 ID 列的命名有何看法 如果我有一个名为 Invoices 的表 其中包含一个标识列的主键 我会将该列称为 InvoiceID 这样就不会与其他表发生冲突 而且它是什么很明显 我目前工作的地方他们已将所有 ID 列

随机推荐