HtmlParser边学边记录

2023-05-16

参考文档:http://www.cnblogs.com/loveyakamoz/archive/2011/07/27/2118937.html

最近学了maven还是蛮方便,但是jar包冲突之类的比较恶心.

为什么用htmlparser, 不用dom4j,因为dom4j只对标准格式的xml文件有用,html也是xml的一种.但是如果出现如同这样的:

<img src="xxxx">

这样的dom4j就解析有问题.htmlparser就没有这个问题

htmlparser导入jar:

dependency>
    <groupId>org.htmlparser</groupId>
    <artifactId>htmlparser</artifactId>
    <version>2.1</version>
</dependency>

然后开始学习.

html可以通过网址或者直接传入一段内容

// 传入一段已经抓取的内容(随便从网上copy一份源码过来)
Parser parser = new Parser(content);
NodeIterator i = parser.elements();
while (i.hasMoreNodes()) {
    Node node = i.nextNode();
    System.out.println(node); 
}
/*
for (NodeIterator i = parser.elements(); i.hasMoreNodes(); ) {
    Node node = i.nextNode();
    System.out.println("getText:"+node.getText());
    System.out.println("getPlainText:"+node.toPlainTextString());
    System.out.println("toHtml:"+node.toHtml());
    System.out.println("toHtml(true):"+node.toHtml(true));
    System.out.println("toHtml(false):"+node.toHtml(false));
    System.out.println("toString:"+node.toString());
    System.out.println("=================================================");
}
*/

打印出了很多内容,把回车换行也打印出来了.虽然看起来比较乱,

另外这里要注意,循环parser只能循环一次, 再次循环没有数据的!!!可以打开第二段注释掉的打印一次试试.没有内容.

htmlparser提供了filter和visitor来解析内容,这里记录一下使用filter的(visitor差不多)

比如,我要从下面的文本中找到

id="js_content" 的元素

<html>
......
<div class="rich_media_content "  id="js_content"><p>测试</p></div>
<div>啊哈哈</div>
......
</html>

代码:

// 将内容解析
Parser parser = new Parser(content);
// 取出所有的div节点
NodeFilter divfilter = new TagNameFilter("div");
// 取出所有的p节点
NodeFilter pfilter = new TagNameFilter("p");
// 取出所有id=js_content的节点 *** 这里注意值不能有空格-后面解释
NodeFilter idfilter = new HasAttributeFilter( "id", "js_content" );
// 过滤器组合
NodeFilter filter = new AndFilter(divfilter, idfilter);
// 精确定位,这里使用idfilter,上面只是列出了那些filter可以使用,具体的可以看参考资料
NodeList nodes = parser.extractAllNodesThatMatch(idfilter).extractAllNodesThatMatch(pfilter,true);
for (int i = 0; i < nodes.size(); i++) {
    Node node = nodes.elementAt(i);
    System.out.println(i + ":---:" + node.toHtml());
}

注意到我上面用的方法:

NodeList nodes = parser.extractAllNodesThatMatch(idfilter).extractAllNodesThatMatch(pfilter,true);

可以这样写:

//得到第一层获取的节点
NodeList nodes = parser.extractAllNodesThatMatch(idfilter);
//然后再次获取想要的节点, 使用pfilter,这里的第二个(是否递归参数)必须是true才能取得子节点,不然是空的!!!!!
NodeList tmp = nodes.extractAllNodesThatMatch(pfilter,true);

看看源码是这样写的(递归查询出子节点然后返回):

/* 第一个参数:过滤器, 第二个参数:是否递归子节点 */
public NodeList extractAllNodesThatMatch (NodeFilter filter, boolean recursive){
        Node node;NodeList children;NodeList ret;ret = new NodeList ();
        for (int i = 0; i < size; i++){
            node = nodeData[i];
            if (filter.accept (node))
                ret.add (node);
            // 这一段判定是否将子节点加入到list中返回,默认是false的
            if (recursive){
                children = node.getChildren ();
                if (null != children)
                    ret.add (children.extractAllNodesThatMatch (filter, recursive));
            }
        }
        return (ret);
}

可以这么理解:

第一次递归的是

NodeList nodes = parser.extractAllNodesThatMatch(idfilter)

这个返回了所有符合要求的内容,也就是

<div class="rich_media_content "  id="js_content"><p>测试</p></div>

而第二段代码,如果不加入true的递归参数:

NodeList tmp = nodes.extractAllNodesThatMatch(pfilter);

其实相当于在div的同级去找p节点,当然没有了.

(以上是我自己的理解,不知道是否正确,如果有错误请大家下面指出....)

另外需要注意一点:

NodeFilter idfilter = new HasAttributeFilter( "id", "js_content" );

对具体的属性进行匹配的时候,要完全匹配(属性名称大小写忽略),如果是这样的(注意到下面的class="rich_mdeia_content "是带有空格的):

NodeFilter idfilter = new HasAttributeFilter( "class", "rich_media_content" );

<html>
<div class="rich_media_content " id="js_content"><p>测试</p></div>
<div>啊哈哈</div>
</html>

是取不到结果的,因为源码中是用的equal比较, 没有去除空格.

当然可以自己重写一下判断逻辑,不过一般情况够用了

转载于:https://my.oschina.net/tulongx/blog/530810

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HTMLParser

边学边记录

HtmlParser边学边记录的相关文章

linux如何查看centos版本信息,怎么查看已安装的CentOS版本信息

一如何查看已安装的CentOS版本信息 xff1a 1 root 64 localhost cat proc version Linux version 2 6 18 194 el5 mockbuild 64 builder10 cent
计算机内存不够玩不了游戏,电脑玩游戏内存不够怎么解决

在有些时候我们的电脑玩游戏内存不够了 xff0c 这该怎么办呢那么下面就由学习啦小编来给你们说说电脑玩游戏内存不够的解决方法吧 xff0c 希望可以帮到你们哦电脑玩游戏内存不够的解决方法一 xff1a 首先点击开始菜单按钮 xff0c
虚拟服务器最大磁盘2TB,云服务器磁盘大小

云服务器磁盘大小内容精选换一换迁移前 xff0c 您需要设置目的端服务器该目的端用来接收源端的数据 xff0c 同时您也可以使用该目的端进行迁移测试和启动目的端只有迁移阶段为已就绪时才可设置目的端或单击操作列的更多
手机+文件共享服务器软件,文件共享服务器软件

文件共享服务器软件内容精选换一换使用外部镜像文件创建私有镜像时 xff0c 以上相关步骤操作需要在虚拟机内部完成 xff0c 强烈建议您在原平台的虚拟机实施修改后 xff0c 再导出镜像使用Windows外部镜像文件创建私有镜像时
修改服务器cimc地址,【交换机在江湖】实战案例十三 HUAWEI S系列交换机802.1x特性对接H厂商IMC服务器配置指导...

1背景交换机提供用户的接入功能 xff0c 用户分为管理员用户和接入用户两大类如图1 1所示 xff0c 管理员用户需要接入交换机对其进行管理 xff0c 接入用户需要接入交换机使用视频语音上网等网络应用业务图1 1交换机的用户
android 串口通信

在日常的开发过程中 xff0c 我们多少会在一些开发板子上进行app开发 xff0c 其中就会涉及到一些串口数据的处理 xff0c 今天就记录一下 xff0c 用到的串口连接和数据接收和发送 1 首先去现在下载用到的串口开发的android
c语言大数据加法实用栈实现,C语言——栈的基本运算在顺序栈上的实现

头文件 Seqstack h define maxsize 6 const int maxsize 61 6 顺序栈 typedef struct seqstack int data maxsize int top 标志栈顶位置的变量 Se
r中gglot怎么组合多张图_ggplot2绘图：多张图合并为一张

以下内容来自教程 R语言中多张图画到同一个页面上常用的函数为par 和layout par 函数详解 layout 函数的简单使用但是这两个函数不适用于ggplot2 xff1b ggplot2作图如果希望把多张图放到同一个页面上基本的解
java 验证sql正确_java检查sql语法是否正确

因为以前作的项目业务逻辑不能用系统定义的方案作计算只能是让用户本身输入参数值设置比例计算规则系统提供sql验证在通常的项目中也不多用到这种类型的作法以下 xff1a java import java util List publi
matlab中门函数怎么化,Matlab中函数tf2zp的解析

又到了大学的毕业季 xff0c 很多同学都面临着一大堆事情找工作看看自己学分够不够四级有没有过其中最大的大头当然还是毕业设计对于门门功课精通 xff0c 个个工具软件用得贼溜的学霸来说这一大堆事情都不是事情对于大学四年前三年半都
热点显示连接不上服务器,为什么手机热点连不上_手机开热点别人连不上的解决方法...

很多用户在手机没流量的时候会找朋友开个人热点使用这样就能共享流量啦但近日有的用户却遇到了手机热点连不上的情况这是怎么回事呢 xff1f 我们又该怎么解决呢 xff1f 对此今天小编就来为大家分享关于手机开热点别人连不上的解决方法解决方
思科服务器启动无显示信号,思科2960交换机启动故障维修案例

思科2960交换机启动故障维修案例客户办公楼全部上不了网 xff0c 检查发现第三层设备室机柜里的三台思科2960交换机中其中一台所有信号灯全部呈现橙黄色 xff0c 并且长亮经反复热复位重复冷启动故障依旧了解故障发生过程得知 xf

随机推荐

奥的斯电梯服务器显示MODULE,奥的斯电梯调试服务器按键介绍

奥的斯电梯调试服务器俗称奥的斯电梯调试服务器俗称 ST 按键介绍按键介绍奥的斯电梯调试服务器俗称 ST 按键介绍 ST 的前面板由一个显示两行每行可显示 16 个字符的液晶显示和 16 个按键组成 ST 的 16 个按键分两个部分
The requested URL returned error:401 Authorization Required

centos更换网易源安装软件报错 xff1a 获取GPG密钥失败 xff1a Errno 14 新安装的准备用来跑web的centos6 9服务器 xff0c 在更换网易源之后报错 xff1a 打开镜像源配置文件 xff0c 发现gpgc
linux函数参数的长度限制,关于命令行长度限制

命令行最大长度到底是多少 xff1f 这个问题有很多不同的答案 xff0c 下面我们来一个一个的看看 CreateProcess函数 CreateProcess支持最长32767个字符 xff0c 这个限制来源于UNICODE STRING
广告法违禁词替换工具_一定要收藏的抖音违规词、雷区知识点

抖音平台规则解读违规词文字过审方法 3大雷区新手必看 1 了解抖音平台规则社区自律公约 2 掌握抖音7类违规词 amp 8大违规行为 amp 文字过审的方法 3 了解抖音平台3大雷区 4 掌握抖音对视频内容的要求一抖音网络社区自
office 打开wps乱_WPS文档怎么清除格式解决复制粘贴格式错乱的问题

WPS文档怎么清除格式解决复制粘贴格式错乱的问题时间 2014 09 29 作者 snow 来源互联网在复制粘贴过程中会发现有格式错乱的 xff0c 这是因为从网上或其他地方复制的内容本身含有格式 xff0c 所以在粘贴后就会出现格式
液位系统c语言程序,基于STM32的液位控制系统设计

程训明董婷婷摘要 xff1a 本文设计一种基于STM32的液位控制系统 xff0c 该控制系统采用STM32作为控制核心 xff0c 使用压力传感器采集水箱内的液位 xff0c 通过串口触摸屏进行液位显示和给定 xff0c 对水位进行
c语言char转cstring,如何将CString类型的变量赋给char*类型的变量

1 GetBuffer函数使用CString GetBuffer函数 char p CString str 61 34 hello 34 p 61 str GetBuffer str GetLength str ReleaseBuffer
苹果cms播放器html,解决苹果cmsv10版本ckplayer播放器高度自适应兼容问题

全站都是mp4直连的话 xff0c 以上问题css可以解决 xff0c css代码如下 MacPlayer table display block 如果还要使用解析接口或者m3u8资源的话 xff0c 以上方法会受影响 xff0c 可考虑下
asp ajax 文件上传,asp.net+ajaxfileupload.js 实现文件异步上传代码分享

由于代码很简单 xff0c 这里就闲话不多说了 xff0c 直接上代码 xff0c 小伙伴们自己研读代码就明白了前台代码 xff1a 修改头像上传 function sc 34 ckfile 34 html 34 34 css 34 c
微信公众号服务器需求分析报告,基于微信公众平台需求分析.docx

基于微信公众平台需求分析目录 TOC o 34 1 3 34 h z u HYPERLINK l 34 Toc407281411 34 1 引言 PAGEREF Toc407281411 h 2 HYPERLINK l 34 Toc40
脚本精灵服务器引擎数据为空,脚本精灵服务器

脚本精灵服务器内容精选换一换如果Linux操作系统云服务器未安装密码重置插件 xff0c 可以参见本节内容重新设置密码本节操作重置的是root用户的密码 xff0c 您可以重置完root密码后登录云服务器后再更换秘钥或重置非root
python stdout.read()阻塞_通过阅读python subprocess源码尝试实现非阻塞读取stdout以及非阻塞wait...

http blog chinaunix net uid 23504396 id 4661783 html 执行subprocess的时候 xff0c 执行不是问题最麻烦的是获取进程执行后的回显来确认是否正确执行 xff0c 还不能阻塞还
c++ 使用libcurl 发送http get/post请求

使用c 43 43 做httpclient时 xff0c 可以使用libcurl库来解决 xff0c 它是一个开源跨平台的网络协议库 xff0c 可以去官网上下载源码编译使用 xff0c 下载地址 xff1a https curl haxx
keil c语言的头文件,51单片机keilC中头文件absacc.h作用

原标题 xff1a 51单片机keilC中头文件absacc h作用当 51单片机通过8255和锁存器74LS273来扩展IO时 xff0c 经常用到头文件absacc h 在程序中 xff0c 用 xff03 include 即可使用
c语言socket实验报告,Socket编程利用TCP协议的实验报告

Socket编程利用TCP协议的实验报告由会员分享 xff0c 可在线阅读 xff0c 更多相关 Socket编程利用TCP协议的实验报告 8页珍藏版请在人人文库网上搜索 1 Socket 编程报告 TCP IP 协议实验目的通过 C
锂电池接线方法图_锂电池保护板接线方法及步骤详细教程，看一遍后入门小白都能学会...

本文以14串48V锂电池保护板为例详细讲解锂电池保护板接线方法及步骤并同步发布教学视频后期将发布更多相关文章及视频欢迎大家关注学习交流了解更多锂电知识保护板接线主要分三部分主回路输入输出部分电压信号采集部分其他信号采集及
can总线linux程序,CAN通信卡的Linux设备驱动程序 - 嵌入式操作系统 - 电子发烧友网...

CAN通信卡的Linux设备驱动程序设计实现目前许多工业现场如电力系统化工系统等大量使用控制器局部网 CAN Controller Area Network 现场总线网络 CAN通信卡作为计算机的外设将计算机接入CAN网络市场上有不
Java实验报告多线程_java多线程实验报告.doc

精品文档 Java实验程序设计实验报告实验名称 xff1a 多线程一 xff1a 实验目的 1 掌握线程和多线程的概念 2 掌握创建线程的两种方法及其区别 3 了解线程的启动终止同步互斥和优先级等概念二 xff1a 实验内容 1
c 语言获取网页源码,c++实现发送http请求通过get方式获取网页源代码

include include include define MAXSIZE 1024 pragma comment lib 34 Wininet lib 34 void urlopen TCHAR int tmain int argc T
HtmlParser边学边记录

参考文档 http www cnblogs com loveyakamoz archive 2011 07 27 2118937 html 最近学了maven还是蛮方便但是jar包冲突之类的比较恶心为什么用htmlparser 不用do

HtmlParser边学边记录

HtmlParser边学边记录 的相关文章

随机推荐

热门标签

HtmlParser边学边记录的相关文章