JAVA HtmlParser Filter解析网页和表格(半个教程)

2023-05-16

package sometry;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.FileInputStream;
import java.io.File;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;

import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.HasChildFilter;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.nodes.TagNode;
import org.htmlparser.tags.TableColumn;
import org.htmlparser.tags.TableHeader;
import org.htmlparser.tags.TableRow;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeIterator;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.TextExtractingVisitor;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;



public class InitializeParser {

   public static void main(String[] args) {
        
        String szContent = openFile( "http://www.cb.cityu.edu.hk/is/people/academic/");
        
        try{
        	/*
        	 * 第一部分            介绍Parser类的初始化
        	 * 
        	    org.htmlparser.Parser类用来解析HTML页面,共有以下几个构造函数:
        	    public Parser ();
        	    public Parser (Lexer lexer, ParserFeedback fb);
        		public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
        	    public Parser (String resource, ParserFeedback feedback) throws ParserException;
        		public Parser (String resource) throws ParserException;
        	    public Parser (Lexer lexer);
        	    public Parser (URLConnection connection) throws ParserException;
        		常用的是通过一个URLConnection或者一个保存有网页内容的字符串来初始化Parser
        	 */
        	
        	/*-------第一种初始化方式  Parser.createParser(String html, String charset) --------------*/
//        	szContent="<!DOCTYPE html PUBLIC \"-//W3C//DTD XHTML 1.0 Transitional//EN\" \"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\"><head><meta http-equiv=\"Content-Type\" content=\"text/html; charset=gb2312\"><title>白泽居-www.baizeju.com</title></head><html xmlns=\"http://www.w3.org/1999/xhtml\"><body ><div id=\"top_main\">    <div id=\"logoindex\">        <!--这是注释-->        白泽居-www.baizeju.com<a href=\"http://www.baizeju.com\">白泽居-www.baizeju.com</a>    </div> 白泽居-www.baizeju.com</div></body></html>";
//            Parser parser = Parser.createParser(szContent, "GBK");
  
        	/*-------第二种初始化方式 -使用HttpURLConnection-------------*/
//            Parser parser = new Parser( (HttpURLConnection) (new URL("http://www.cb.cityu.edu.hk/staff/issliao/")).openConnection() );
           /*------第三种初始化方式(也是我比较倾向于使用的方式)------*/
            Parser parser = new Parser();  
            parser.setURL("http://www.cb.cityu.edu.hk/staff/issliao/");  
            parser.setEncoding(parser.getEncoding());
            
            /*第二部分     
             * 主要获得页面中的Node,进而得到Node中的内容
             * 
             * 
             *Node中包含的方法有几类:
             *对于树型结构进行遍历的函数,这些函数最容易理解:
             *Node getParent ():取得父节点
             *NodeList getChildren ():取得子节点的列表
             *Node getFirstChild ():取得第一个子节点
             *Node getLastChild ():取得最后一个子节点
             *Node getPreviousSibling ():取得前一个兄弟
             *Node getNextSibling ():取得下一个兄弟节点
             *取得Node内容的函数:
             *String getText ():取得标签上的文本  如<head id="1">MyPlace</head>其中的id="1"
             *String toPlainTextString():取得标签标出来的content, 如MyPlace
             *String toHtml () :取得HTML信息(原始HTML)
             *String toHtml (boolean verbatim):取得HTML信息(原始HTML)
             *String toString ():取得字符串信息(原始HTML)
             *Page getPage ():取得这个Node对应的Page对象
             *int getStartPosition ():取得这个Node在HTML页面中的起始位置
             *int getEndPosition ():取得这个Node在HTML页面中的结束位置
             * */
  
//             for (NodeIterator i = parser.elements (); i.hasMoreNodes(); ) {
//                Node node = i.nextNode();
//                message("getText:"+node.getText());
//                message("getPlainText:"+node.toPlainTextString());
//                message("toHtml:"+node.toHtml());
//                message("toHtml(true):"+node.toHtml(true));
//                message("toHtml(false):"+node.toHtml(false));
//                message("toString:"+node.toString());
//                message("=================================================");
//            }
           
           /*
            * 第三部分    介绍Parser来解析网页
            *Node分成三类:
            *RemarkNode:代表Html中的注释 
            *TagNode:标签节点,是种类最多的节点类型,上述Tag的具体节点类都是TagNode的实现。 
            *TextNode:文本节点 
            * 
            * */
            /*------ 主要有两种方式到达想要的Node ------*/
            /*------ 第一种 Filter  -------
             * 16个不同的Filter,也可以分为几类。
             * 判断类Filter:
             * TagNameFilter
             * HasAttributeFilter
             * HasChildFilter
             * HasParentFilter
             * HasSiblingFilter
             * IsEqualFilter
             * 逻辑运算Filter:
             * AndFilter
             * NotFilter
             * OrFilter
             * XorFilter
             * 其他Filter:
             * NodeClassFilter
             * StringFilter
             * LinkStringFilter
             * LinkRegexFilter
             * RegexFilter
             * CssSelectorNodeFilter
             * */
            /*获得节点*/
//            NodeList nodes = parser.parse(new TagNameFilter("DIV")); 
            //或者采用
//            NodeFilter filter = new TagNameFilter ("DIV");
//            NodeList nodes = parser.extractAllNodesThatMatch(filter); 
            

           /*测试HasChildFilter,返回有符合条件的子节点的节点,如下是返回有DIV节点的节点*/
//            NodeFilter innerFilter = new TagNameFilter("DIV");
//            NodeFilter filter = new HasChildFilter(innerFilter);
//            NodeList nodes = parser.extractAllNodesThatMatch(filter);
            /*测试HasAttributeFilter,把有相应属性的tag找出来*/           
//          NodeFilter filter = new HasAttributeFilter( "id","cityu-cb-staff-contact" );
//          NodeList nodes = parser.extractAllNodesThatMatch(filter);
          /*其他很多filter见http://blog.csdn.net/yanjun_xiaoli/article/details/4291865
           * */
            /*下面测试下更重要的AndFilter*/
//          NodeFilter filterID = new HasAttributeFilter( "id" );
//          NodeFilter filterChild = new HasChildFilter(innerFilter);
//          NodeFilter filter = new AndFilter(filterID, filterChild);
//          NodeList nodes = parser.extractAllNodesThatMatch(filter);
//          for(int i=0; i<nodes.size();i++){//nodes.size()  
//          TagNode node = (TagNode)nodes.elementAt(i);   
//           System.out.println("name是:" + node.getAttribute("name"));//获取tag的属性信息  
//           message("getText:"+node.getText());
//           message("toPlainTextString:"+ node.toPlainTextString());
//           message("=================================================");
//      }  
            
           /*下面是一个解析表格的例子*/
            String html = "<table>"+
			"<tbody>"+						
			"<tr>"+
				"<th>Address:</th>"+
				"<td>"+
				"P7920,  Academic 1<br>City University of Hong Kong"+
				"</td>"+
			"</tr>"+		
			"<tr>"+
				"<th>Phone:</th>"+
				"<td>+852 34427552</td>"+
			"</tr>"	+
			"<tr>"+
				"<th>Fax:</th>"+
				"<td>+852 34420370</td>"+
			"</tr>"	+	
			"<tr>"+
				"<th colspan=\"2\" style=\"white-space: nowrap;\">E-mail:</th>"+
			"</tr>"+
			"<tr>"+
				"<td colspan=\"2\"><a href=\"mailto:issliao@cityu.edu.hk\">issliao@cityu.edu.hk</a></td>"+
			"</tr>"	+			
	"</tbody>"+
"</table>";
            
            Parser parser1 = null;
            NodeList tableList = null;
            NodeFilter tableFilter = null;
            parser1 = Parser.createParser(html, "GBK");
           tableFilter = new NodeClassFilter(TableTag.class);
           tableList = parser1.extractAllNodesThatMatch(tableFilter);
           for (int i=0; i<tableList.size(); i++) {
              TableTag table = (TableTag) tableList.elementAt(i);
              //取得表中的行集
              TableRow[] rows = table.getRows();
              //遍历每行           
              for (int r=0; r<rows.length; r++) {
                  TableRow tr = rows[r];
                  //从而得到<th> tag
                  TableHeader[] headers = tr.getHeaders();
                  for (int j = 0; j < headers.length; j++) {
                	  System.out.println("tag标签为:" + headers[j].getTagName());  
                	  System.out.println("标签的内容为:" + headers[j].getStringText());
				}                                
                  //行中的列
                  TableColumn[] td = tr.getColumns();
                  for (int c=0; c<td.length; c++) {
                     System.out.print(td[c].toPlainTextString() + " ");
                  }
                  System.out.println();
              }
           }
        }
        catch( Exception e ) { 
        	e.printStackTrace();
        }
    }
	
   
   public static String openFile( String szFileName ) {
   	/*这个方法就是把整个网页内容读取下来*/
       try {
       	URL url = new URL(szFileName);
           BufferedReader bis = new BufferedReader(new InputStreamReader(url.openStream(), "GBK") );
           String szContent="";
           String szTemp;
           
           while ( (szTemp = bis.readLine()) != null) {
               szContent+=szTemp+"/n";
           }
           bis.close();
           return szContent;
       }
       catch( Exception e ) {
           return "";
       }
   }
   
   
   private static void message( String szMsg ) {
       try{ 
       	System.out.println(new String(szMsg.getBytes("GBK"), System.getProperty("file.encoding"))); 
       	} catch(Exception e ){}
   }
}

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

JAVA HtmlParser Filter解析网页和表格(半个教程) 的相关文章

  • do{...}while(0)的用法,超详解

    转载原文地址 xff1a http blog csdn net majianfei1023 article details 45246865 零 导引 第一次见到 do while 0 是在学习libevent的时候 xff0c 看到里面有
  • 以太坊的Ethash算法

    Ethash认真的阅读 xff0c 理解 xff0c 计算和调试了一番 xff0c 顺便自己翻译了一下 xff0c 共同学习 此规范是修订版23 Ethash 是 Ethereum 1 0 的计划的PoW算法 这是最新版本的Dagger H
  • MinGW下载

    下载地址 https www mingw w64 org downloads 选择windows版本 点击MingW W64 builds进入页面 https www mingw w64 org downloads mingw builds
  • 关于c语言中printf的几个问题

    问题在执行下列代码时发现的 int main int a 61 1 float b 61 1 0 float c 61 a 10 printf 34 d 34 int b printf 34 d 34 b 问题一 为什么不一样啊 用 d输出
  • 北斗定位与GPS定位的区别

    欢迎来到东用小知识课堂 xff0c 每天学习一分钟 xff0c 让你紧跟时代 xff0c 扩充自己 xff0c 成为大佬不是梦 xff01 1 覆盖范围 xff1a 北斗定位系统是覆盖中国本土的区域导航系统 覆盖范围东经约70 一140 x
  • 污水处理远程监控系统解决方案

    一 行业背景 随着我国科技和经济的发展 xff0c 近年来工厂数量日益增多 xff0c 而生产所带来的工业垃圾及污水就是一个重要的环境污染问题 xff0c 部分工厂甚至会在监管部门的监控死角下偷偷进行污水排放 xff0c 对周围水质造成严重
  • 5G工业路由器安全性怎么样?工业路由器的特点

    路由器 xff0c 本身就是一个具有相当大潜力的网络通信设备 xff0c 即使再是网络小白的用户 xff0c 可能也知道路由器是家中用于发布无线网络的设备 xff0c 如果深入了解的话 xff0c 其作用和发展会让人大为感慨 相信很多用户也
  • 路由器有防火墙?工业路由器的那些安全防护

    想要网络安全光是电脑装了杀毒软件可不行 xff0c 如果一个企业或者大型工厂一旦因为网络防护疏忽 xff0c 那么丢失数据信息所造成的损失是无法估量的 xff0c 所以企业及工厂网络通信及数据传输所使用的路由器一般都是工业级的 xff0c
  • Cat.1和Cat.4有哪些区别

    Cat 1的全称为LTE UE Category 1 xff0c 它是4G LTE网络的一个类 xff0c 也可以理解为低配的4G终端 xff0c 属于广域网 xff0c 蜂窝联网 xff0c 上行峰值为5Mbit s xff0c 下行峰值
  • RS485接口连接设备数量总共有多少?

    RS485总线可以连接256个设备 xff0c 但测试后发现这个数字有比较大的差异 有一种说法认为专门开发串行嵌入式的RS485总线只能连接32个节点 xff0c 这由自身的驱动能力决定的 有人说网上的各种485总线产品可以支持128个 x
  • 预防山体滑坡,泥石流监测智能预警系统

    一 行业背景 我国是一个山区面积较大的国家 xff0c 山地 丘陵约占国土总面积的2 3 xff0c 在众多的山区中 xff0c 都具备泥石流形成的基本条件 xff0c 这也让我国成为受泥石流灾害影响最大的国家 在我国境内 xff0c 泥石
  • 如何扩大无线网络信号强度?

    欢迎来到东用小知识课堂 xff0c 每天学习一分钟 xff0c 让你紧跟时代 xff0c 扩充自己 xff0c 成为大佬不是梦 xff01 无线网络通信设备存在一个问题 xff0c 那就是他的信号发射都是直线型 xff0c 因此一旦家中或者
  • OpenWrt 添加cpu温度显示监控

    opkg update opkg install lm sensors lm sensors detect 然后修改一下 usr lib lua luci view admin status index htm 增加一个温度的显示 lt C
  • RS485接线方式小科普

    欢迎来到东用知识小课堂 xff01 RS 485采用平衡发送和差分接收方式实现通信 xff1a 发送端将串行口的ttl电平信号转换成差分信号a xff0c b两路输出 xff0c 经过线缆传输之后在接收端将差分信号还原成ttl电平信号 RS
  • 传输数据稳如老狗,还支持多种接口,这款DTU让智能化更简单

    如果你的项目正在向着智慧化转变或发展 xff0c 那么你一定会深刻意识到数据传输的稳定性对于整个系统的稳定运行的重要性 毕竟 xff0c 项目的智能化发展需要时刻保持数据的可靠性和稳定传输 xff0c 如果一旦传输因设备或者网络等因素导致中
  • 什么是光耦隔离?光耦隔离的主要作用

    欢迎来到东用知识小课堂 xff01 光耦合器的结构相当于把发光二极管和光敏三极管封装在一起 光耦隔离电路使被隔离的两部分电路之间没有电的直接连接 xff0c 主要是防止因有电的连接而引起的干扰 xff0c 特别是低压的控制电路与外部高压电路
  • ORB305与CISCO路由器构建L2TP over IPSec VPN操作手册

    1 网络拓扑 在思科路由器与ORB305之间建立一个安全隧道 xff0c 对客户路由器端设备子网 xff0c 与思科路由器端服务器子网之间的数据流进行安全保护 xff0c 组网拓扑图如图所示 2 思科路由器端配置指导 此处以多数客户使用专线
  • linux下使用UDP发送接收数据

    接收 static int sock fd struct sockaddr in recv addr 读取参数 struct sockaddr in send addr 发送参数 sock fd 61 socket AF INET SOCK
  • 0长度数组的使用,重点掌握的知识

    0长度的数组在ISO C和C 43 43 的规格说明书中是不允许的 xff0c 但是GCC的C99支持的这种用法 GCC对0长度数组的文档参考 xff1a Arrays of Length Zero 如下代码片段 xff0c 哪个更简洁更灵
  • Freertos中检测内存的剩余函数

    static uint16 t prvTaskCheckFreeStackSpace const uint8 t pucStackByte

随机推荐

  • 重定位

    一 必须知道的几个概念 1 链接地址和运行地址 运行地址 xff0c 顾名思义就是程序运行的时候的地址 xff0c 也就是你用工具将代码下载到RAM的那个地址 xff0c 也叫加载地址 链接地址 xff0c 由链接脚本指定的地址 为什么需要
  • CC2541低功耗的实现方法

    转自 xff1a http blog csdn net mzy202 article details 42091537 CC2541 CC2540 实现超低功耗是非常重要的 xff1a 我们来总结一下实现方法 xff1a 1 xff0c 有
  • Macbook pro/air 2013 late -2014 使用转接卡更换NVME SSD休眠不醒问题的解决办法

    2021年1月更新 xff0c 发现升级 big sur 11 1之后 xff0c 固件版本变成了429 0 0 0 睡眠问题又回来了 xff0c 每次都睡死 xff0c 不醒 于是我按老办法 xff0c 把mbp114的nvme驱动刷到m
  • stm32使用stlink v2.0下载的sw接线方式

    stm32的sw下载需要用到4根线 GND VCC SWCLK SWDIO xff0c 对应好即可 xff0c 相比较3根线的方式 xff0c 优先推荐4根线下载方式
  • stm32芯片的焊接

    stm32的焊接 xff0c 使用到东西 xff1a 松香 xff0c 维修佬 xff0c 烙铁 1 首先将stm32的一个角的脚上涂上维修佬 xff0c 要特别特别少 xff0c 太多了 xff0c 容易粘连到其他脚上面 xff0c 不好
  • Modbus-RTU通讯协议中CRC校验码的计算步骤

    在CRC计算时只用8个数据位 xff0c 起始位及停止位 xff0c 如有奇偶校验位也包括奇偶校验位 xff0c 都不参与CRC计算 CRC计算方法是 xff1a 1 预置1个16位的寄存器为十六进制FFFF xff08 全1 xff09
  • 一个很好的makefile例子(经典)

    转自http www cnblogs com sld666666 archive 2010 04 08 1707789 html 相信在unix下编程的没有不知道makefile的 xff0c 刚开始学习unix平台 下的东西 xff0c
  • 无线传输距离计算公式

    转自一篇文档 无线传输距离计算 Pr dBm 61 Pt dBm Ct dB 43 Gt dB FL dB 43 Gr dB Cr dB Pr xff1a 接受端灵敏度 Pt 发送端功率 Cr 接收端接头和电缆损耗 Ct 发送端接头和电缆损
  • hex文件解析

    Keil开发环境编程时对源程序进行编译链接后都 可以 成一个可执行文件即 hex文件 xff0c 但是有不完全是一个可执行文件 然后 可以 通过烧录工具烧写到对应的单片机的 flash中 xff0c 当然也还有其他方法可以进行烧录 大家在编
  • Ubuntu下如何挂载以及卸载U盘?

    l 在挂载U盘前 xff0c 首先运行命令cat proc partitions xff0c 看看现在系统中有哪些分区 插上u盘以后 xff0c 再次运行上述命令 xff0c 看看多出来什么分区 xff08 通常是sda1 xff0c 由于
  • 链接脚本文件的写法

    对于 lds文件 xff0c 它定义了整个程序编译之后的连接过程 xff0c 决定了一个可执行程序的各个段的存储位置 虽然现在我还没怎么用它 xff0c 但感觉还是挺重要的 xff0c 有必要了解一下 先看一下GNU官方网站上对 lds文件
  • Ubuntu18.04+思岚激光雷达A2M7+ROS测试

    Ubuntu18 04 43 思岚激光雷达A2M7 43 ROS测试 1 测试环境搭建 测试环境 xff1a Ubuntu18 04 43 ROS Melodic测试工具 xff1a 思岚科技激光雷达A2M7 43 USB转接工具 2 下载
  • ROS系统的串口数据读取和解析

    原帖地址 xff1a https blog csdn net Tansir94 article details 81357612 一 Ubuntu下的串口助手cutecom 下载 xff1a sudo apt get install cut
  • tcp buffer设置

    本文基于CENTOS DEBIAN UBUNTU 编写 我有两台位于不同数据中心的服务器 xff0c 都用来处理很多并行的大文件传输 但是处理大文件 xff0c 网络性能非常差 并且涉及到一个大文件 xff0c 会导致性能降级 我怎样通过调
  • URL模块之parse方法

    url parse urlString boolean boolean parse这个方法可以将一个url的字符串解析并返回一个url的对象 参数 xff1a urlString指传入一个url地址的字符串 第二个参数 xff08 可省 x
  • Makefile 知识点记录

    Makefile 知识点记录 1 依赖类型 xff1a normal Prerequisites xff0c order only prerequisites normal Prerequisites xff1a 标准依赖具有两层含义的声明
  • 视频矩阵系统中三代OSD字符叠加技术全面解析

    视频矩阵系统中三代OSD字符叠加技术全面解析 屏显信息更丰富 中文效果更出色 使用设置更灵活 视频矩阵系统中三代OSD字符叠加技术全面解析 前言 xff1a 在以矩阵为控制中枢的视频监控系统中 xff0c 大量的视频信号需要在数目有限的监视
  • CV_...报错

    在出错的程序里面添加相应的头文件即可 1 CV LOAD IMAGE COLOR was not declared in this scope include 34 opencv2 imgcodecs legacy constants c
  • 优化IMU数据避免突变的建议

    影响IMU数据变化的主要因素是应力 温度和电气干扰 xff1b xff11 温度的的骤升 xff0c 比如芯片的位置附件有相关器件几秒钟工作一次 xff0c 此时温度骤升 xff0c 可能会引起数据也发生突变 xff0c 周围有变化的热源和
  • JAVA HtmlParser Filter解析网页和表格(半个教程)

    package sometry import java io BufferedReader import java io InputStreamReader import java io FileInputStream import jav