boilerpipe

Apache Tika 如何提取没有页眉和页脚内容的 html 正文

我希望提取除页眉和页脚之外的 html 的整个正文内容但是我遇到了异常 org xml sax SAXException 命名空间http www w3 org 1999 xhtml未申报下面是我如上所述创建的代码at import o

html Parsing apachetika boilerpipe