JAVA HtmlParser Filter解析网页和表格（半个教程）

2023-05-16

package sometry;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.FileInputStream;
import java.io.File;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;

import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.HasChildFilter;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.nodes.TagNode;
import org.htmlparser.tags.TableColumn;
import org.htmlparser.tags.TableHeader;
import org.htmlparser.tags.TableRow;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeIterator;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.TextExtractingVisitor;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;



public class InitializeParser {

   public static void main(String[] args) {
        
        String szContent = openFile( "http://www.cb.cityu.edu.hk/is/people/academic/");
        
        try{
        	/*
        	 * 第一部分            介绍Parser类的初始化
        	 * 
        	    org.htmlparser.Parser类用来解析HTML页面，共有以下几个构造函数：
        	    public Parser ();
        	    public Parser (Lexer lexer, ParserFeedback fb);
        		public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
        	    public Parser (String resource, ParserFeedback feedback) throws ParserException;
        		public Parser (String resource) throws ParserException;
        	    public Parser (Lexer lexer);
        	    public Parser (URLConnection connection) throws ParserException;
        		常用的是通过一个URLConnection或者一个保存有网页内容的字符串来初始化Parser
        	 */
        	
        	/*-------第一种初始化方式  Parser.createParser(String html, String charset) --------------*/
//        	szContent="<!DOCTYPE html PUBLIC \"-//W3C//DTD XHTML 1.0 Transitional//EN\" \"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\"><head><meta http-equiv=\"Content-Type\" content=\"text/html; charset=gb2312\"><title>白泽居-www.baizeju.com</title></head><html xmlns=\"http://www.w3.org/1999/xhtml\"><body ><div id=\"top_main\">    <div id=\"logoindex\">        <!--这是注释-->        白泽居-www.baizeju.com<a href=\"http://www.baizeju.com\">白泽居-www.baizeju.com</a>    </div> 白泽居-www.baizeju.com</div></body></html>";
//            Parser parser = Parser.createParser(szContent, "GBK");
  
        	/*-------第二种初始化方式 -使用HttpURLConnection-------------*/
//            Parser parser = new Parser( (HttpURLConnection) (new URL("http://www.cb.cityu.edu.hk/staff/issliao/")).openConnection() );
           /*------第三种初始化方式（也是我比较倾向于使用的方式）------*/
            Parser parser = new Parser();  
            parser.setURL("http://www.cb.cityu.edu.hk/staff/issliao/");  
            parser.setEncoding(parser.getEncoding());
            
            /*第二部分     
             * 主要获得页面中的Node,进而得到Node中的内容
             * 
             * 
             *Node中包含的方法有几类：
             *对于树型结构进行遍历的函数，这些函数最容易理解：
             *Node getParent ()：取得父节点
             *NodeList getChildren ()：取得子节点的列表
             *Node getFirstChild ()：取得第一个子节点
             *Node getLastChild ()：取得最后一个子节点
             *Node getPreviousSibling ()：取得前一个兄弟
             *Node getNextSibling ()：取得下一个兄弟节点
             *取得Node内容的函数：
             *String getText ()：取得标签上的文本  如<head id="1">MyPlace</head>其中的id="1"
             *String toPlainTextString()：取得标签标出来的content, 如MyPlace
             *String toHtml () ：取得HTML信息（原始HTML）
             *String toHtml (boolean verbatim)：取得HTML信息（原始HTML）
             *String toString ()：取得字符串信息（原始HTML）
             *Page getPage ()：取得这个Node对应的Page对象
             *int getStartPosition ()：取得这个Node在HTML页面中的起始位置
             *int getEndPosition ()：取得这个Node在HTML页面中的结束位置
             * */
  
//             for (NodeIterator i = parser.elements (); i.hasMoreNodes(); ) {
//                Node node = i.nextNode();
//                message("getText:"+node.getText());
//                message("getPlainText:"+node.toPlainTextString());
//                message("toHtml:"+node.toHtml());
//                message("toHtml(true):"+node.toHtml(true));
//                message("toHtml(false):"+node.toHtml(false));
//                message("toString:"+node.toString());
//                message("=================================================");
//            }
           
           /*
            * 第三部分    介绍Parser来解析网页
            *Node分成三类：
            *RemarkNode:代表Html中的注释 
            *TagNode：标签节点，是种类最多的节点类型，上述Tag的具体节点类都是TagNode的实现。 
            *TextNode：文本节点 
            * 
            * */
            /*------ 主要有两种方式到达想要的Node ------*/
            /*------ 第一种 Filter  -------
             * 16个不同的Filter，也可以分为几类。
             * 判断类Filter：
             * TagNameFilter
             * HasAttributeFilter
             * HasChildFilter
             * HasParentFilter
             * HasSiblingFilter
             * IsEqualFilter
             * 逻辑运算Filter：
             * AndFilter
             * NotFilter
             * OrFilter
             * XorFilter
             * 其他Filter：
             * NodeClassFilter
             * StringFilter
             * LinkStringFilter
             * LinkRegexFilter
             * RegexFilter
             * CssSelectorNodeFilter
             * */
            /*获得节点*/
//            NodeList nodes = parser.parse(new TagNameFilter("DIV")); 
            //或者采用
//            NodeFilter filter = new TagNameFilter ("DIV");
//            NodeList nodes = parser.extractAllNodesThatMatch(filter); 
            

           /*测试HasChildFilter，返回有符合条件的子节点的节点，如下是返回有DIV节点的节点*/
//            NodeFilter innerFilter = new TagNameFilter("DIV");
//            NodeFilter filter = new HasChildFilter(innerFilter);
//            NodeList nodes = parser.extractAllNodesThatMatch(filter);
            /*测试HasAttributeFilter，把有相应属性的tag找出来*/           
//          NodeFilter filter = new HasAttributeFilter( "id","cityu-cb-staff-contact" );
//          NodeList nodes = parser.extractAllNodesThatMatch(filter);
          /*其他很多filter见http://blog.csdn.net/yanjun_xiaoli/article/details/4291865
           * */
            /*下面测试下更重要的AndFilter*/
//          NodeFilter filterID = new HasAttributeFilter( "id" );
//          NodeFilter filterChild = new HasChildFilter(innerFilter);
//          NodeFilter filter = new AndFilter(filterID, filterChild);
//          NodeList nodes = parser.extractAllNodesThatMatch(filter);
//          for(int i=0; i<nodes.size();i++){//nodes.size()  
//          TagNode node = (TagNode)nodes.elementAt(i);   
//           System.out.println("name是：" + node.getAttribute("name"));//获取tag的属性信息  
//           message("getText:"+node.getText());
//           message("toPlainTextString:"+ node.toPlainTextString());
//           message("=================================================");
//      }  
            
           /*下面是一个解析表格的例子*/
            String html = "<table>"+
			"<tbody>"+						
			"<tr>"+
				"<th>Address:</th>"+
				"<td>"+
				"P7920,  Academic 1<br>City University of Hong Kong"+
				"</td>"+
			"</tr>"+		
			"<tr>"+
				"<th>Phone:</th>"+
				"<td>+852 34427552</td>"+
			"</tr>"	+
			"<tr>"+
				"<th>Fax:</th>"+
				"<td>+852 34420370</td>"+
			"</tr>"	+	
			"<tr>"+
				"<th colspan=\"2\" style=\"white-space: nowrap;\">E-mail:</th>"+
			"</tr>"+
			"<tr>"+
				"<td colspan=\"2\"><a href=\"mailto:issliao@cityu.edu.hk\">issliao@cityu.edu.hk</a></td>"+
			"</tr>"	+			
	"</tbody>"+
"</table>";
            
            Parser parser1 = null;
            NodeList tableList = null;
            NodeFilter tableFilter = null;
            parser1 = Parser.createParser(html, "GBK");
           tableFilter = new NodeClassFilter(TableTag.class);
           tableList = parser1.extractAllNodesThatMatch(tableFilter);
           for (int i=0; i<tableList.size(); i++) {
              TableTag table = (TableTag) tableList.elementAt(i);
              //取得表中的行集
              TableRow[] rows = table.getRows();
              //遍历每行           
              for (int r=0; r<rows.length; r++) {
                  TableRow tr = rows[r];
                  //从而得到<th> tag
                  TableHeader[] headers = tr.getHeaders();
                  for (int j = 0; j < headers.length; j++) {
                	  System.out.println("tag标签为：" + headers[j].getTagName());  
                	  System.out.println("标签的内容为：" + headers[j].getStringText());
				}                                
                  //行中的列
                  TableColumn[] td = tr.getColumns();
                  for (int c=0; c<td.length; c++) {
                     System.out.print(td[c].toPlainTextString() + " ");
                  }
                  System.out.println();
              }
           }
        }
        catch( Exception e ) { 
        	e.printStackTrace();
        }
    }
	
   
   public static String openFile( String szFileName ) {
   	/*这个方法就是把整个网页内容读取下来*/
       try {
       	URL url = new URL(szFileName);
           BufferedReader bis = new BufferedReader(new InputStreamReader(url.openStream(), "GBK") );
           String szContent="";
           String szTemp;
           
           while ( (szTemp = bis.readLine()) != null) {
               szContent+=szTemp+"/n";
           }
           bis.close();
           return szContent;
       }
       catch( Exception e ) {
           return "";
       }
   }
   
   
   private static void message( String szMsg ) {
       try{ 
       	System.out.println(new String(szMsg.getBytes("GBK"), System.getProperty("file.encoding"))); 
       	} catch(Exception e ){}
   }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

JAVA HtmlParser Filter解析网页和表格（半个教程）的相关文章

do{...}while(0)的用法,超详解

转载原文地址 xff1a http blog csdn net majianfei1023 article details 45246865 零导引第一次见到 do while 0 是在学习libevent的时候 xff0c 看到里面有
以太坊的Ethash算法

Ethash认真的阅读 xff0c 理解 xff0c 计算和调试了一番 xff0c 顺便自己翻译了一下 xff0c 共同学习此规范是修订版23 Ethash 是 Ethereum 1 0 的计划的PoW算法这是最新版本的Dagger H
MinGW下载

下载地址 https www mingw w64 org downloads 选择windows版本点击MingW W64 builds进入页面 https www mingw w64 org downloads mingw builds
关于c语言中printf的几个问题

问题在执行下列代码时发现的 int main int a 61 1 float b 61 1 0 float c 61 a 10 printf 34 d 34 int b printf 34 d 34 b 问题一为什么不一样啊用 d输出
北斗定位与GPS定位的区别

欢迎来到东用小知识课堂 xff0c 每天学习一分钟 xff0c 让你紧跟时代 xff0c 扩充自己 xff0c 成为大佬不是梦 xff01 1 覆盖范围 xff1a 北斗定位系统是覆盖中国本土的区域导航系统覆盖范围东经约70 一140 x
污水处理远程监控系统解决方案

一行业背景随着我国科技和经济的发展 xff0c 近年来工厂数量日益增多 xff0c 而生产所带来的工业垃圾及污水就是一个重要的环境污染问题 xff0c 部分工厂甚至会在监管部门的监控死角下偷偷进行污水排放 xff0c 对周围水质造成严重
5G工业路由器安全性怎么样？工业路由器的特点

路由器 xff0c 本身就是一个具有相当大潜力的网络通信设备 xff0c 即使再是网络小白的用户 xff0c 可能也知道路由器是家中用于发布无线网络的设备 xff0c 如果深入了解的话 xff0c 其作用和发展会让人大为感慨相信很多用户也
路由器有防火墙？工业路由器的那些安全防护

想要网络安全光是电脑装了杀毒软件可不行 xff0c 如果一个企业或者大型工厂一旦因为网络防护疏忽 xff0c 那么丢失数据信息所造成的损失是无法估量的 xff0c 所以企业及工厂网络通信及数据传输所使用的路由器一般都是工业级的 xff0c
Cat.1和Cat.4有哪些区别

Cat 1的全称为LTE UE Category 1 xff0c 它是4G LTE网络的一个类 xff0c 也可以理解为低配的4G终端 xff0c 属于广域网 xff0c 蜂窝联网 xff0c 上行峰值为5Mbit s xff0c 下行峰值
RS485接口连接设备数量总共有多少？

RS485总线可以连接256个设备 xff0c 但测试后发现这个数字有比较大的差异有一种说法认为专门开发串行嵌入式的RS485总线只能连接32个节点 xff0c 这由自身的驱动能力决定的有人说网上的各种485总线产品可以支持128个 x
预防山体滑坡，泥石流监测智能预警系统

一行业背景我国是一个山区面积较大的国家 xff0c 山地丘陵约占国土总面积的2 3 xff0c 在众多的山区中 xff0c 都具备泥石流形成的基本条件 xff0c 这也让我国成为受泥石流灾害影响最大的国家在我国境内 xff0c 泥石
如何扩大无线网络信号强度？

欢迎来到东用小知识课堂 xff0c 每天学习一分钟 xff0c 让你紧跟时代 xff0c 扩充自己 xff0c 成为大佬不是梦 xff01 无线网络通信设备存在一个问题 xff0c 那就是他的信号发射都是直线型 xff0c 因此一旦家中或者
OpenWrt 添加cpu温度显示监控

opkg update opkg install lm sensors lm sensors detect 然后修改一下 usr lib lua luci view admin status index htm 增加一个温度的显示 lt C
RS485接线方式小科普

欢迎来到东用知识小课堂 xff01 RS 485采用平衡发送和差分接收方式实现通信 xff1a 发送端将串行口的ttl电平信号转换成差分信号a xff0c b两路输出 xff0c 经过线缆传输之后在接收端将差分信号还原成ttl电平信号 RS
传输数据稳如老狗，还支持多种接口，这款DTU让智能化更简单

如果你的项目正在向着智慧化转变或发展 xff0c 那么你一定会深刻意识到数据传输的稳定性对于整个系统的稳定运行的重要性毕竟 xff0c 项目的智能化发展需要时刻保持数据的可靠性和稳定传输 xff0c 如果一旦传输因设备或者网络等因素导致中
什么是光耦隔离？光耦隔离的主要作用

欢迎来到东用知识小课堂 xff01 光耦合器的结构相当于把发光二极管和光敏三极管封装在一起光耦隔离电路使被隔离的两部分电路之间没有电的直接连接 xff0c 主要是防止因有电的连接而引起的干扰 xff0c 特别是低压的控制电路与外部高压电路
ORB305与CISCO路由器构建L2TP over IPSec VPN操作手册

1 网络拓扑在思科路由器与ORB305之间建立一个安全隧道 xff0c 对客户路由器端设备子网 xff0c 与思科路由器端服务器子网之间的数据流进行安全保护 xff0c 组网拓扑图如图所示 2 思科路由器端配置指导此处以多数客户使用专线
linux下使用UDP发送接收数据

接收 static int sock fd struct sockaddr in recv addr 读取参数 struct sockaddr in send addr 发送参数 sock fd 61 socket AF INET SOCK
0长度数组的使用，重点掌握的知识

0长度的数组在ISO C和C 43 43 的规格说明书中是不允许的 xff0c 但是GCC的C99支持的这种用法 GCC对0长度数组的文档参考 xff1a Arrays of Length Zero 如下代码片段 xff0c 哪个更简洁更灵
Freertos中检测内存的剩余函数

static uint16 t prvTaskCheckFreeStackSpace const uint8 t pucStackByte

随机推荐

重定位

一必须知道的几个概念 1 链接地址和运行地址运行地址 xff0c 顾名思义就是程序运行的时候的地址 xff0c 也就是你用工具将代码下载到RAM的那个地址 xff0c 也叫加载地址链接地址 xff0c 由链接脚本指定的地址为什么需要
CC2541低功耗的实现方法

转自 xff1a http blog csdn net mzy202 article details 42091537 CC2541 CC2540 实现超低功耗是非常重要的 xff1a 我们来总结一下实现方法 xff1a 1 xff0c 有
Macbook pro/air 2013 late -2014 使用转接卡更换NVME SSD休眠不醒问题的解决办法

2021年1月更新 xff0c 发现升级 big sur 11 1之后 xff0c 固件版本变成了429 0 0 0 睡眠问题又回来了 xff0c 每次都睡死 xff0c 不醒于是我按老办法 xff0c 把mbp114的nvme驱动刷到m
stm32使用stlink v2.0下载的sw接线方式

stm32的sw下载需要用到4根线 GND VCC SWCLK SWDIO xff0c 对应好即可 xff0c 相比较3根线的方式 xff0c 优先推荐4根线下载方式
stm32芯片的焊接

stm32的焊接 xff0c 使用到东西 xff1a 松香 xff0c 维修佬 xff0c 烙铁 1 首先将stm32的一个角的脚上涂上维修佬 xff0c 要特别特别少 xff0c 太多了 xff0c 容易粘连到其他脚上面 xff0c 不好
Modbus-RTU通讯协议中CRC校验码的计算步骤

在CRC计算时只用8个数据位 xff0c 起始位及停止位 xff0c 如有奇偶校验位也包括奇偶校验位 xff0c 都不参与CRC计算 CRC计算方法是 xff1a 1 预置1个16位的寄存器为十六进制FFFF xff08 全1 xff09
一个很好的makefile例子（经典）

转自http www cnblogs com sld666666 archive 2010 04 08 1707789 html 相信在unix下编程的没有不知道makefile的 xff0c 刚开始学习unix平台下的东西 xff0c
无线传输距离计算公式

转自一篇文档无线传输距离计算 Pr dBm 61 Pt dBm Ct dB 43 Gt dB FL dB 43 Gr dB Cr dB Pr xff1a 接受端灵敏度 Pt 发送端功率 Cr 接收端接头和电缆损耗 Ct 发送端接头和电缆损
hex文件解析

Keil开发环境编程时对源程序进行编译链接后都可以成一个可执行文件即 hex文件 xff0c 但是有不完全是一个可执行文件然后可以通过烧录工具烧写到对应的单片机的 flash中 xff0c 当然也还有其他方法可以进行烧录大家在编
Ubuntu下如何挂载以及卸载U盘？

l 在挂载U盘前 xff0c 首先运行命令cat proc partitions xff0c 看看现在系统中有哪些分区插上u盘以后 xff0c 再次运行上述命令 xff0c 看看多出来什么分区 xff08 通常是sda1 xff0c 由于
链接脚本文件的写法

对于 lds文件 xff0c 它定义了整个程序编译之后的连接过程 xff0c 决定了一个可执行程序的各个段的存储位置虽然现在我还没怎么用它 xff0c 但感觉还是挺重要的 xff0c 有必要了解一下先看一下GNU官方网站上对 lds文件
Ubuntu18.04+思岚激光雷达A2M7+ROS测试

Ubuntu18 04 43 思岚激光雷达A2M7 43 ROS测试 1 测试环境搭建测试环境 xff1a Ubuntu18 04 43 ROS Melodic测试工具 xff1a 思岚科技激光雷达A2M7 43 USB转接工具 2 下载
ROS系统的串口数据读取和解析

原帖地址 xff1a https blog csdn net Tansir94 article details 81357612 一 Ubuntu下的串口助手cutecom 下载 xff1a sudo apt get install cut
tcp buffer设置

本文基于CENTOS DEBIAN UBUNTU 编写我有两台位于不同数据中心的服务器 xff0c 都用来处理很多并行的大文件传输但是处理大文件 xff0c 网络性能非常差并且涉及到一个大文件 xff0c 会导致性能降级我怎样通过调
URL模块之parse方法

url parse urlString boolean boolean parse这个方法可以将一个url的字符串解析并返回一个url的对象参数 xff1a urlString指传入一个url地址的字符串第二个参数 xff08 可省 x
Makefile 知识点记录

Makefile 知识点记录 1 依赖类型 xff1a normal Prerequisites xff0c order only prerequisites normal Prerequisites xff1a 标准依赖具有两层含义的声明
视频矩阵系统中三代OSD字符叠加技术全面解析

视频矩阵系统中三代OSD字符叠加技术全面解析屏显信息更丰富中文效果更出色使用设置更灵活视频矩阵系统中三代OSD字符叠加技术全面解析前言 xff1a 在以矩阵为控制中枢的视频监控系统中 xff0c 大量的视频信号需要在数目有限的监视
CV_...报错

在出错的程序里面添加相应的头文件即可 1 CV LOAD IMAGE COLOR was not declared in this scope include 34 opencv2 imgcodecs legacy constants c
优化IMU数据避免突变的建议

影响IMU数据变化的主要因素是应力温度和电气干扰 xff1b xff11 温度的的骤升 xff0c 比如芯片的位置附件有相关器件几秒钟工作一次 xff0c 此时温度骤升 xff0c 可能会引起数据也发生突变 xff0c 周围有变化的热源和
JAVA HtmlParser Filter解析网页和表格（半个教程）

package sometry import java io BufferedReader import java io InputStreamReader import java io FileInputStream import jav

JAVA HtmlParser Filter解析网页和表格（半个教程）

JAVA HtmlParser Filter解析网页和表格（半个教程） 的相关文章

随机推荐

热门标签

JAVA HtmlParser Filter解析网页和表格（半个教程）的相关文章