htmlparsing

如何使用 Java 将 HTML 内容转换为 PDF 而不丢失格式？

我有一些 HTML 内容包括格式化标签例如strong 图像等在我的 Java 代码中我想将此 HTML 内容转换为 PDF 文档而不丢失 HTML 格式有没有办法用 Java 来实现使用 iText 或任何其他库 I use

Java pdfgeneration htmlparsing itext

Python 中最宽容的 HTML 解析器是什么？

我有一些随机的 HTML 我使用 BeautifulSoup 来解析它但在大多数情况下 gt 70 它会令人窒息我尝试使用Beautiful soup 3 0 8和3 2 0 3 1 0以上有一些问题但结果几乎相同我可以从我的脑海中

python htmlparsing beautifulsoup lxml pyquery

使用 Python 抓取维基百科数据

我正在尝试从以下内容中检索 3 列 NFL 球队球员姓名大学球队维基百科页面 http en wikipedia org wiki 2008 NFL draft 我是 python 新手一直在尝试使用 beautifulsoup 来

python webscraping beautifulsoup htmlparsing wikipedia

网页抓取 - 如何识别网页上的主要内容

给定一个新闻文章网页来自任何主要新闻来源例如时报或彭博社我想识别该页面上的主要文章内容并丢弃其他杂项元素例如广告菜单侧边栏用户评论在大多数主要新闻网站上都可以使用的通用方法是什么有哪些好的数据挖掘工具或库最好是基于Py

python webscraping htmlparsing html

网页抓取（R 语言？）

我想获取中间栏中的公司名称this http www consumercomplaints in bysubcategory mobile service providers page 1 html页面以蓝色粗体书写以及登记投诉者的位置

r htmlparsing webscraping

如何在Python中的BeautifulSoup4中使用.next_sibling时忽略空行

由于我想删除 html 网站中重复的占位符因此我使用 BeautifulSoup 的 next sibling 运算符只要重复项位于同一行就可以正常工作参见数据但有时它们之间有一个空行所以我希望 next sibling 忽略它

python htmlparsing beautifulsoup

Xpath 和通配符

我尝试了几种组合但没有成功该数据的完整 xpath 是 id detail row seek 37878 td问题是每个节点的数字部分 37878 都会发生变化因此我无法使用 foreach 循环遍历节点有没有办法使用通配符并将 xp

c xpath screenscraping htmlparsing htmlagilitypack

jsoup 的奇怪编码行为

我用jsoup从不同页面的html源代码中提取一些信息大多数都是UTF 8编码的其中一个是用 ISO 8859 1 编码的这会导致一个奇怪的错误在我看来包含错误的页面是 http www gudi ch armbanduhr me

Java html characterencoding htmlparsing Jsoup

广告过滤服务器端[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在开发一个 Web 应用程序在其中显示来自其他网站的 HTML 在显示最终版本之前我想去掉广告关于如何实现这一目标有什么想法

html rubyonrails ruby htmlparsing ADS

如何从 .Net 中的许多 HTML 文件中读取 xpath 值？

我的一个文件夹中有大约 5000 个 html 文件我需要循环遍历它们打开使用 xpath 获取 10 个值关闭并存储在 SQL Server 数据库中使用 Net 读取 xpath 值的最简单方法是什么 xpath 应该相当稳定

NET xpath htmlparsing

antisamy 解析器强制关闭标签

我使用 Antisamy 来验证 HTML 我的政策允许 iframe 例如 YouTube 视频问题是如果标签为空像这样清洗后会是这样的但它应该有正常的结束标签这会破坏之后页面上的所有内容我已经将指令设置为使用大部分 HTM

Java security htmlparsing owasp antisamy

如何删除 BeautifulSoup 中的空格

我正在使用 BeautifulSoup 解析一堆 HTML 除了一个小问题外一切进展顺利我想将输出保存到单行字符串中以下内容作为我当前的输出 li span class plaincharacterwrap break Zazzafo

python regex htmlparsing beautifulsoup

QDomDocument 无法设置带有标记的 HTML 文档的内容

当我使用QDomDocument对于 HTML 内容如果存在则无法设置内容在文档的开头但实际上为什么例如考虑以下代码片段 QDomDocument doc QString content a href bar foo a qDebu

QT DOM htmlparsing doctype qtxml

在 Python 3.2 中使用 HTMLParser

我一直在使用 HTML 解析器从网站中抓取数据并剥离 html 编码我知道各种模块例如 Beautiful Soup 但决定走不依赖外部模块的道路 Eloff 提供了一个代码在 Python 中从字符串中去除 HTML https

python3x htmlparsing arguments webscraping stripping

如何在 PHP 中解析和处理 HTML/XML？

如何解析 HTML XML 并从中提取信息 Answer recommended by PHP collectives php Collective 原生 XML 扩展我更喜欢使用其中之一原生 XML 扩展 https php net m

php html xml xmlparsing htmlparsing

使用 Beautiful Soup - Python 查找 HTML 中 1 级内的所有文本

我需要用美丽的汤来完成以下任务 HTML 示例 div Text1 div Text3 div div 我需要对此进行搜索以便在列表的单独实例中返回给我 Text1 Text2 Text3 我尝试执行 findAll div 但它多次重复

python htmlparsing beautifulsoup findAll

开源html解析类无法正确解析段落之间的空格

我正在使用一种开源方法将 html 文本解析为 NSString 生成的字符串在前几个段落之间有大量空格但后续段落只有一行空格这是输出的示例 Below is the method I m calling I ve only chan

Objectivec htmlparsing

如何使用 Jericho HTML 解析器获取特定标签之间的文本和其他标签？

我有一个包含特定标签的 HTML 文件例如 table cellspacing 0 结束标签是 table 现在我想获取这些标签之间的所有内容我正在 Java 中使用 Jericho HTML 解析器来解析 HTML 是否可以获取 Je

Java htmlparsing jerichohtmlparser

如何在python中修改html树？

假设有一些可变片段html代码 p span class code string 1 span class code string 2 span class code string 3 span span span p p span cla

python htmlparsing beautifulsoup

Python：使用html解析器提取特定数据

我开始使用 Python 中的 HTMLParser 从网站中提取数据我得到了我想要的一切除了两个 HTML 标签内的文本以下是 HTML 标签的示例 a href http wold livingsources org vocabu

python html python27 htmlparsing HTMLParser