java取html中的table_从一段html的table标签中按列提取信息

2023-10-27

我们平时经常会遇到提取某个html中某个table的信息

比如

e62591603198f2bcb02599517218a874.png

我们要提取出序号、登记编号、出质人等等。我的思路是先通过正则锁定该table,在通过Jsoup来按列解析内容。

我将提取信息的过程抽取出了一个方法,其中内含Jsoup和Regex

/**

* 从table中提取所有td的方法 返回一个list包含table中所有数据

*

* @param html

* 所要提取的html

* @param regex

* 要解析的table的正则

* @param tdNum

* 每个tr中的td个数

* @return List

* @author kfh

*/

public List extractTable(String html, String regex, int tdNum) {

ArrayList result = new ArrayList();

String content = this.getValue(html, regex);

// 如果开头缺失table标签,则补全之

if (!content.startsWith("

content = "

}

if (StringUtils.isEmpty(content)) {

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

java取html中的table_从一段html的table标签中按列提取信息 的相关文章

  • 算法_冒泡排序法(04)

    java源代码实现 public class Bubble 冒泡排序法 public void sort int arr 外层循环 决定此排序走几趟 for int i 0 i
  • ctfshow web入门全部答案-信息收集【后续持续更新中】

    web1 右键查看源代码 发现开发没删除注释导致信息泄露 ctfshow 06a130b1 7e6b 4a60 997d e1bae1e9a06c web2 前端无法查看源代码 抓个包发送 即可看到回显 ctfshow ae482770 4
  • c语言opencv的阅卷系统硬件要求,VS2019+Opencv4.0+Win10配置详解

    一 下载OpenCV4 0的安装文件 然后安装到你想要的地方 二 添加到Path里面 并且把文件opencv world400 dll和opencv world400d dll文件复制到 C Windows SysWOW64这个文件夹 三
  • vscode配置保存自动格式化

    要在VSCode中保存文件时自动进行格式化 您可以按照以下步骤进行配置 打开VSCode并打开您要编辑的项目文件夹 点击左侧边栏最底部的 设置 按钮 在搜索栏中输入 save 然后选择 首选项 在保存时运行格式化程序 选项 将此选项打开 这
  • 电子科技大学编译原理复习笔记(八):语义分析

  • 2021宝应各高中高考成绩查询,2019扬州大市各高中高考情况如何,看超全喜报!...

    原标题 2019扬州大市各高中高考情况如何 看超全喜报 关注了解更多信息 2019年高考扬州大市各校喜报 扬州中学喜报 2019年扬州中学高考扬州市文理双状元 扬州中学 理科生罗筱溪 高考成绩433分 全省排名前十 文科生苏泺健 高考成绩4
  • 微店 Android 插件化实践

    随着微店业务的发展 App不可避免的也遇到了65535的大坑 除此之外 业务模块增多 代码量增大所带来的问题也逐渐显现出来 模块耦合度高 协作开发困难 编译时间过长等问题严重影响了开发进程 在预研了多种方案以后 插件化似乎是解决这些问题比较
  • DVWA靶场虚拟机搭建教程

    DVWA是一款面世时间较长的Web渗透靶场 向网络安全专业人员提供合法的专业技能和应用测试环境 其特点是提供了包含Low Medium High Impossible四个等级的渗透防护 防护等级越高 渗透难度越大 平时常用于我们进行XSS
  • Visual Studio 2019 + OpenGL环境配置

    使用的是 gl h glu h glaux h 下载目录 https download csdn net download boyinc0de 11171372 在 接下来 包含目录对应下载下来的文件 解压开来的include文件夹 库目录
  • C ++ STL中的set :: find()函数

    C STL set find 函数 C STL set find function set find function is a predefined function it is used to check whether an elem
  • mysql 日期比较 between的用法的意思_Mysql 中现在仍旧不知道的小知识点

    重点 表结构的增删改 alter table t students add id int alter table t students drop id alter table t students modify id varchar 20
  • python 逻辑回归 summary_python – 为什么statsmodels和R之间的逻辑回归结果不同?

    我试图比较 python的statsmodels和R中的逻辑回归实现 import statsmodels api as sm import pandas as pd import pylab as pl import numpy as n
  • Vue.js 学习笔记十三:Vue Router 之 keep-alive

    目录 keep alive keep alive 有时候我们不希望组件被重新渲染影响使用体验 或者处于性能考虑 避免多次重复渲染降低性能 而是希望组件可以缓存下来 维持当前的状态 这时候就可以用到 keep alive 组件 keep al
  • Java开发设计模式-工厂模式-Factory

    1 工厂模式简介 工厂模式 Factory Pattern 是 Java 中最常用的设计模式之一 这种类型的设计模式属于创建型模式 它提供了一种创建对象的最佳方式 在工厂模式中 我们在创建对象时不会对客户端暴露创建逻辑 并且是通过使用一个共
  • thinkphp5学习路程 一 thinphp5的简单上手

    首先我们将php的环境配置好 能正常运行 这方面就不细说了 本人是windows系统 主要是给自己当笔记用 多写写总是好的 只看不练学不会 thinkphp5完全开发手册 http www kancloud cn manual thinkp
  • 第二专题 第三道题

    1 题目编号 1001 2 简单题意 知道一个公式8 x 4 7 x 3 2 x 2 3 x 6 y 给定T组数据 每组数据中给出y值 让求x 且y大于等于x等于0小于等于x等于100 3 解题思路形成过程 看到这道题就会想到数太大 容易超
  • Element 级联组件实现省市区街道联动

    最近在做一个省市区街道联动的功能 使用的是 Element 级联组件 现将自己的思路和问题记录一下 有对直辖市 港澳台数据的处理 大佬们有更好的建议可以留言哦 话不多说 直接上菜 先看下效果 接口数据 小伙伴们可以根据后端返回数据做相应处理
  • Java基础笔记:Collection集合框架

    Collection框架 Collection 单列集合类的根接口 用于存储一系列符合某种规则的元素 它有两个重要的子接口 分别是java util List和java util Set List的特点是元素有序 元素可重复 Set的特点是
  • C语言联合体

    一 联合体的概念 联合 union 是一个能在同一个存储空间里 但不同时 存储不同类型数据的复合数据类型 大致结构如下 n union foo 定义一个联合类型foo n q int digit q double bigfl 10 q ch

随机推荐

  • 浅学Linux内核MMU

    1 MMU基本知识 1 1 什么是MMU MMU是 MemoryManagementUnit 的缩写即 内存管理单元 针对各种CPU MMU是个可选的配件 MMU负责的是虚拟地址与物理地址的转换 提供硬件机制的内存访问授权 现代 CPU 的
  • Google TPU的发展历程与思考(二)

    TPU v2 与 TPU v3 相较于 TPU v1 只能用于推理 TPU v2 致力于解决训练难题 TPUv2 设计目标 训练与推理 仅仅是转变方向而已吗 TPUv2 誓要解决更难的训练任务 事实上 训练与推理的难度相差比想象的要大 1
  • Acwing 1414.牛异或

    输入样例 5 1 0 5 4 2 输出样例 6 4 5 刚开始看到这个题 我是毫无思绪 看了一下题解 https www acwing com video 2339 老师说这个是最大异或对的变形 于是我去找了一下最大异或对 看完之后我只能想
  • 关于Mysql-unknow-column-in-where-clause

    写在前边 已经很久不更新了啊 整个2月份几乎没有遇到什么新鲜事 直到昨天我又犯了一次傻 貌似只有我犯傻的时候才有材料可以跟大家分享 问题表现 mysql 报错 unknow column sys in where clause 事实上这是个
  • GD32F303X SPI调试遇到的问题总结

    1 下面是一些常规配置 SPI0为例 define SPI0 CS ENABLE GPIO BC GPIOA GPIO PIN 4 LOW define SPI0 CS DISABLE GPIO BOP GPIOA GPIO PIN 4 H
  • c语言long和long long的取值范围

    溢出和取值范围 C语言的整型溢出问题 整数溢出 int long int long long int 占用字节 C和指针 中写过 long与int 标准只规定long不小于int的长度 int不小于short的长度 double与int类型
  • UGUI屏幕自适应

    关键点 0 自适应的测试 通过设置多种的屏幕大小进行测试 测试时最好要打开Maximize on Play 在屏幕放大的情况下容易观察自适应情况 1 所谓的自适应 就是 a 保持相对位置不变 例如UI设计在屏幕的左上角 那么在各种的分辨率下
  • java多线程和高并发系列一 & JMM、Synchronized、volatile

    目录 什么是JMM模型 概念 JVM的工作 JMM的工作 总结 JMM不同于JVM内存区域模型 主内存 工作内存 数据同步八大原子操作 同步规则分析 并发编程的可见性 原子性于有序性问题 原子性 可见性 有序性 volatile内存语义 v
  • js复制图片,支持jpg和png

    直接上关键代码 copy jpg url jpg 示例 复制图片 支持jpg png 传入图片url即可 function copy jpg url var canvas document createElement canvas 创建一个
  • unity 延迟等待执行

    关于unity延迟执行网上也有很多了 我这里只是封装下 让写代码变得更加优雅 使用更加方便 一个问题想要表述清楚 读者也能看明白 无非3个点 What 要说的是什么 How 怎么用你这个东西 什么情况下有用 Why 为什么要这么做 这么做有
  • 3天快速了解区块链技术 day01

    文章目录 区块链技术与应用相关概念 关于作者 作者介绍 前言 一 区块链基础概念 1 1 区块链历史 1 2 区块链和区块的定义 1 3 区块链分类 1 4 区块链价值 1 5 区块链应用领域 1 6 区块链特点 1 7 区块链关键技术 二
  • 使用cJSON解析JSON字符串

    JSON学习 使用cJSON解析 使用cJSON解析JSON字符串 一 为何选择cJSON 我们在使用JSON格式时 如果只是处理简单的协议 可以依据JSON格式 通过对字符串的操作来进行解析与创建 然而随着协议逐渐复杂起来 经常会遇到一些
  • Altium Designer 18 速成实战 第四部分 PCB库的设计(七)3D PCB封装的创建

    Altium Designer 18 速成实战 第四部分 PCB库的设计 七 3D PCB封装的创建 目录 一 3D元件体绘制3D PCB封装 1 放置3D元件体 2 绘制成下图所示 3 根据下图 图来自百度 调整属性 二 3D元件体绘制3
  • 修改weblogic控制台路径

    我们在使 weblogic控制台时 出于安全的考虑需要对weblogic的console进行设置 修改默认的访问路径 有两种方法 任选一种都可以 一 在web控制台进行修改 先使用默认的ip 端口 console登录到weblogic控制台
  • Basic Level 1074 宇宙无敌加法器 (25分)

    题目 地球人习惯使用十进制数 并且默认一个数字的每一位都是十进制的 而在 PAT 星人开挂的世界里 每个数字的每一位都是不同进制的 这种神奇的数字称为 PAT数 每个 PAT 星人都必须熟记各位数字的进制表 例如 0527 就表示最低位是
  • Ubuntu 14.04 将其他盘挂载到/home的子目录下

    Ubuntu 14 04 将其他盘挂载到 home的子目录下 当安装完Ubuntu系统 由于当时没有注意 分配的分区空间太小 经过一段时间安装了各式各样的软件后 常常会遇到 home目录下空间不够的情况 这时除了卸载软件以及重装系统以外 还
  • MDK 编译错误:multiply defined (重复定义)

    这个代码实现很简单 出现重复定义首先检查了自己的头文件 发现没问题 后来经过师兄的点拨 发现他提示后面有 表示有两个头文件key1 c和key c 马上检查了工程 果然发现有两个 c文件 删除一个即可解决问题
  • 广度优先探索例题java_LeetCode:广度优先搜索(BFS)算法(常见面试题)

    今天推荐一道常见的面试算法题 比较实用也比较常见 一 认识广度优先搜索算法 广度优先搜索 BFS 算法是图的一种遍历方法 它的核心思想是从图的某一个节点开始 依次遍历相邻节点 再从这些相邻节点继续向外层节点遍历 直到连通图的所有节点均被访问
  • Django-项目构建(一)

    环境 python3 Django2 window10 工具 pycharm 构建项目前期准备工作 安装python3 Django2 等 略 一 使用git Bash Here 打开git bash Here 构建项目命令 django
  • java取html中的table_从一段html的table标签中按列提取信息

    我们平时经常会遇到提取某个html中某个table的信息 比如 我们要提取出序号 登记编号 出质人等等 我的思路是先通过正则锁定该table 在通过Jsoup来按列解析内容 我将提取信息的过程抽取出了一个方法 其中内含Jsoup和Regex