java取html中的table_从一段html的table标签中按列提取信息

2023-10-27

我们平时经常会遇到提取某个html中某个table的信息

比如

我们要提取出序号、登记编号、出质人等等。我的思路是先通过正则锁定该table，在通过Jsoup来按列解析内容。

我将提取信息的过程抽取出了一个方法，其中内含Jsoup和Regex

/**

* 从table中提取所有td的方法返回一个list包含table中所有数据

* @param html

* 所要提取的html

* @param regex

* 要解析的table的正则

* @param tdNum

* 每个tr中的td个数

* @return List

* @author kfh

public List extractTable(String html, String regex, int tdNum) {

ArrayList result = new ArrayList();

String content = this.getValue(html, regex);

// 如果开头缺失table标签，则补全之

if (!content.startsWith("

content = "

}

if (StringUtils.isEmpty(content)) {

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

java取html中的table

java取html中的table_从一段html的table标签中按列提取信息的相关文章

算法_冒泡排序法(04)

java源代码实现 public class Bubble 冒泡排序法 public void sort int arr 外层循环决定此排序走几趟 for int i 0 i
ctfshow web入门全部答案-信息收集【后续持续更新中】

web1 右键查看源代码发现开发没删除注释导致信息泄露 ctfshow 06a130b1 7e6b 4a60 997d e1bae1e9a06c web2 前端无法查看源代码抓个包发送即可看到回显 ctfshow ae482770 4
c语言opencv的阅卷系统硬件要求,VS2019+Opencv4.0+Win10配置详解

一下载OpenCV4 0的安装文件然后安装到你想要的地方二添加到Path里面并且把文件opencv world400 dll和opencv world400d dll文件复制到 C Windows SysWOW64这个文件夹三
vscode配置保存自动格式化

要在VSCode中保存文件时自动进行格式化您可以按照以下步骤进行配置打开VSCode并打开您要编辑的项目文件夹点击左侧边栏最底部的设置按钮在搜索栏中输入 save 然后选择首选项在保存时运行格式化程序选项将此选项打开这
电子科技大学编译原理复习笔记（八）：语义分析
2021宝应各高中高考成绩查询,2019扬州大市各高中高考情况如何，看超全喜报！...

原标题 2019扬州大市各高中高考情况如何看超全喜报关注了解更多信息 2019年高考扬州大市各校喜报扬州中学喜报 2019年扬州中学高考扬州市文理双状元扬州中学理科生罗筱溪高考成绩433分全省排名前十文科生苏泺健高考成绩4
微店 Android 插件化实践

随着微店业务的发展 App不可避免的也遇到了65535的大坑除此之外业务模块增多代码量增大所带来的问题也逐渐显现出来模块耦合度高协作开发困难编译时间过长等问题严重影响了开发进程在预研了多种方案以后插件化似乎是解决这些问题比较
DVWA靶场虚拟机搭建教程

DVWA是一款面世时间较长的Web渗透靶场向网络安全专业人员提供合法的专业技能和应用测试环境其特点是提供了包含Low Medium High Impossible四个等级的渗透防护防护等级越高渗透难度越大平时常用于我们进行XSS
Visual Studio 2019 + OpenGL环境配置

使用的是 gl h glu h glaux h 下载目录 https download csdn net download boyinc0de 11171372 在接下来包含目录对应下载下来的文件解压开来的include文件夹库目录
C ++ STL中的set :: find（）函数

C STL set find 函数 C STL set find function set find function is a predefined function it is used to check whether an elem
mysql 日期比较 between的用法的意思_Mysql 中现在仍旧不知道的小知识点

重点表结构的增删改 alter table t students add id int alter table t students drop id alter table t students modify id varchar 20
python 逻辑回归 summary_python – 为什么statsmodels和R之间的逻辑回归结果不同？

我试图比较 python的statsmodels和R中的逻辑回归实现 import statsmodels api as sm import pandas as pd import pylab as pl import numpy as n
Vue.js 学习笔记十三：Vue Router 之 keep-alive

目录 keep alive keep alive 有时候我们不希望组件被重新渲染影响使用体验或者处于性能考虑避免多次重复渲染降低性能而是希望组件可以缓存下来维持当前的状态这时候就可以用到 keep alive 组件 keep al
Java开发设计模式-工厂模式-Factory

1 工厂模式简介工厂模式 Factory Pattern 是 Java 中最常用的设计模式之一这种类型的设计模式属于创建型模式它提供了一种创建对象的最佳方式在工厂模式中我们在创建对象时不会对客户端暴露创建逻辑并且是通过使用一个共
thinkphp5学习路程一 thinphp5的简单上手

首先我们将php的环境配置好能正常运行这方面就不细说了本人是windows系统主要是给自己当笔记用多写写总是好的只看不练学不会 thinkphp5完全开发手册 http www kancloud cn manual thinkp
第二专题第三道题

1 题目编号 1001 2 简单题意知道一个公式8 x 4 7 x 3 2 x 2 3 x 6 y 给定T组数据每组数据中给出y值让求x 且y大于等于x等于0小于等于x等于100 3 解题思路形成过程看到这道题就会想到数太大容易超
Element 级联组件实现省市区街道联动

最近在做一个省市区街道联动的功能使用的是 Element 级联组件现将自己的思路和问题记录一下有对直辖市港澳台数据的处理大佬们有更好的建议可以留言哦话不多说直接上菜先看下效果接口数据小伙伴们可以根据后端返回数据做相应处理
Java基础笔记：Collection集合框架

Collection框架 Collection 单列集合类的根接口用于存储一系列符合某种规则的元素它有两个重要的子接口分别是java util List和java util Set List的特点是元素有序元素可重复 Set的特点是
C语言联合体

一联合体的概念联合 union 是一个能在同一个存储空间里但不同时存储不同类型数据的复合数据类型大致结构如下 n union foo 定义一个联合类型foo n q int digit q double bigfl 10 q ch

随机推荐

浅学Linux内核MMU

1 MMU基本知识 1 1 什么是MMU MMU是 MemoryManagementUnit 的缩写即内存管理单元针对各种CPU MMU是个可选的配件 MMU负责的是虚拟地址与物理地址的转换提供硬件机制的内存访问授权现代 CPU 的
Google TPU的发展历程与思考（二）

TPU v2 与 TPU v3 相较于 TPU v1 只能用于推理 TPU v2 致力于解决训练难题 TPUv2 设计目标训练与推理仅仅是转变方向而已吗 TPUv2 誓要解决更难的训练任务事实上训练与推理的难度相差比想象的要大 1
Acwing 1414.牛异或

输入样例 5 1 0 5 4 2 输出样例 6 4 5 刚开始看到这个题我是毫无思绪看了一下题解 https www acwing com video 2339 老师说这个是最大异或对的变形于是我去找了一下最大异或对看完之后我只能想
关于Mysql-unknow-column-in-where-clause

写在前边已经很久不更新了啊整个2月份几乎没有遇到什么新鲜事直到昨天我又犯了一次傻貌似只有我犯傻的时候才有材料可以跟大家分享问题表现 mysql 报错 unknow column sys in where clause 事实上这是个
GD32F303X SPI调试遇到的问题总结

1 下面是一些常规配置 SPI0为例 define SPI0 CS ENABLE GPIO BC GPIOA GPIO PIN 4 LOW define SPI0 CS DISABLE GPIO BOP GPIOA GPIO PIN 4 H
c语言long和long long的取值范围

溢出和取值范围 C语言的整型溢出问题整数溢出 int long int long long int 占用字节 C和指针中写过 long与int 标准只规定long不小于int的长度 int不小于short的长度 double与int类型
UGUI屏幕自适应

关键点 0 自适应的测试通过设置多种的屏幕大小进行测试测试时最好要打开Maximize on Play 在屏幕放大的情况下容易观察自适应情况 1 所谓的自适应就是 a 保持相对位置不变例如UI设计在屏幕的左上角那么在各种的分辨率下
java多线程和高并发系列一 & JMM、Synchronized、volatile

目录什么是JMM模型概念 JVM的工作 JMM的工作总结 JMM不同于JVM内存区域模型主内存工作内存数据同步八大原子操作同步规则分析并发编程的可见性原子性于有序性问题原子性可见性有序性 volatile内存语义 v
js复制图片，支持jpg和png

直接上关键代码 copy jpg url jpg 示例复制图片支持jpg png 传入图片url即可 function copy jpg url var canvas document createElement canvas 创建一个
unity 延迟等待执行

关于unity延迟执行网上也有很多了我这里只是封装下让写代码变得更加优雅使用更加方便一个问题想要表述清楚读者也能看明白无非3个点 What 要说的是什么 How 怎么用你这个东西什么情况下有用 Why 为什么要这么做这么做有
3天快速了解区块链技术 day01

文章目录区块链技术与应用相关概念关于作者作者介绍前言一区块链基础概念 1 1 区块链历史 1 2 区块链和区块的定义 1 3 区块链分类 1 4 区块链价值 1 5 区块链应用领域 1 6 区块链特点 1 7 区块链关键技术二
使用cJSON解析JSON字符串

JSON学习使用cJSON解析使用cJSON解析JSON字符串一为何选择cJSON 我们在使用JSON格式时如果只是处理简单的协议可以依据JSON格式通过对字符串的操作来进行解析与创建然而随着协议逐渐复杂起来经常会遇到一些
Altium Designer 18 速成实战第四部分 PCB库的设计（七）3D PCB封装的创建

Altium Designer 18 速成实战第四部分 PCB库的设计七 3D PCB封装的创建目录一 3D元件体绘制3D PCB封装 1 放置3D元件体 2 绘制成下图所示 3 根据下图图来自百度调整属性二 3D元件体绘制3
修改weblogic控制台路径

我们在使 weblogic控制台时出于安全的考虑需要对weblogic的console进行设置修改默认的访问路径有两种方法任选一种都可以一在web控制台进行修改先使用默认的ip 端口 console登录到weblogic控制台
Basic Level 1074 宇宙无敌加法器 (25分)

题目地球人习惯使用十进制数并且默认一个数字的每一位都是十进制的而在 PAT 星人开挂的世界里每个数字的每一位都是不同进制的这种神奇的数字称为 PAT数每个 PAT 星人都必须熟记各位数字的进制表例如 0527 就表示最低位是
Ubuntu 14.04 将其他盘挂载到/home的子目录下

Ubuntu 14 04 将其他盘挂载到 home的子目录下当安装完Ubuntu系统由于当时没有注意分配的分区空间太小经过一段时间安装了各式各样的软件后常常会遇到 home目录下空间不够的情况这时除了卸载软件以及重装系统以外还
MDK 编译错误：multiply defined （重复定义）

这个代码实现很简单出现重复定义首先检查了自己的头文件发现没问题后来经过师兄的点拨发现他提示后面有表示有两个头文件key1 c和key c 马上检查了工程果然发现有两个 c文件删除一个即可解决问题
广度优先探索例题java_LeetCode：广度优先搜索(BFS)算法（常见面试题）

今天推荐一道常见的面试算法题比较实用也比较常见一认识广度优先搜索算法广度优先搜索 BFS 算法是图的一种遍历方法它的核心思想是从图的某一个节点开始依次遍历相邻节点再从这些相邻节点继续向外层节点遍历直到连通图的所有节点均被访问
Django-项目构建(一)

环境 python3 Django2 window10 工具 pycharm 构建项目前期准备工作安装python3 Django2 等略一使用git Bash Here 打开git bash Here 构建项目命令 django
java取html中的table_从一段html的table标签中按列提取信息

我们平时经常会遇到提取某个html中某个table的信息比如我们要提取出序号登记编号出质人等等我的思路是先通过正则锁定该table 在通过Jsoup来按列解析内容我将提取信息的过程抽取出了一个方法其中内含Jsoup和Regex

java取html中的table_从一段html的table标签中按列提取信息

java取html中的table_从一段html的table标签中按列提取信息 的相关文章

随机推荐

热门标签

java取html中的table_从一段html的table标签中按列提取信息的相关文章