我们平时经常会遇到提取某个html中某个table的信息
比如
我们要提取出序号、登记编号、出质人等等。我的思路是先通过正则锁定该table,在通过Jsoup来按列解析内容。
我将提取信息的过程抽取出了一个方法,其中内含Jsoup和Regex
/**
* 从table中提取所有td的方法 返回一个list包含table中所有数据
*
* @param html
* 所要提取的html
* @param regex
* 要解析的table的正则
* @param tdNum
* 每个tr中的td个数
* @return List
* @author kfh
*/
public List extractTable(String html, String regex, int tdNum) {
ArrayList result = new ArrayList();
String content = this.getValue(html, regex);
// 如果开头缺失table标签,则补全之
if (!content.startsWith("
content = "
}
if (StringUtils.isEmpty(content)) {