Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何使用 Java 将 HTML 内容转换为 PDF 而不丢失格式?
我有一些 HTML 内容 包括格式化标签 例如strong 图像等 在我的 Java 代码中 我想将此 HTML 内容转换为 PDF 文档 而不丢失 HTML 格式 有没有办法用 Java 来实现 使用 iText 或任何其他库 I use
Java
pdfgeneration
htmlparsing
itext
Python 中最宽容的 HTML 解析器是什么?
我有一些随机的 HTML 我使用 BeautifulSoup 来解析它 但在大多数情况下 gt 70 它会令人窒息 我尝试使用Beautiful soup 3 0 8和3 2 0 3 1 0以上有一些问题 但结果几乎相同 我可以从我的脑海中
python
htmlparsing
beautifulsoup
lxml
pyquery
使用 Python 抓取维基百科数据
我正在尝试从以下内容中检索 3 列 NFL 球队 球员姓名 大学球队 维基百科页面 http en wikipedia org wiki 2008 NFL draft 我是 python 新手 一直在尝试使用 beautifulsoup 来
python
webscraping
beautifulsoup
htmlparsing
wikipedia
网页抓取 - 如何识别网页上的主要内容
给定一个新闻文章网页 来自任何主要新闻来源 例如时报或彭博社 我想识别该页面上的主要文章内容 并丢弃其他杂项元素 例如广告 菜单 侧边栏 用户评论 在大多数主要新闻网站上都可以使用的通用方法是什么 有哪些好的数据挖掘工具或库 最好是基于Py
python
webscraping
htmlparsing
html
网页抓取(R 语言?)
我想获取中间栏中的公司名称this http www consumercomplaints in bysubcategory mobile service providers page 1 html页面 以蓝色粗体书写 以及登记投诉者的位置
r
htmlparsing
webscraping
如何在Python中的BeautifulSoup4中使用.next_sibling时忽略空行
由于我想删除 html 网站中重复的占位符 因此我使用 BeautifulSoup 的 next sibling 运算符 只要重复项位于同一行 就可以正常工作 参见数据 但有时它们之间有一个空行 所以我希望 next sibling 忽略它
python
htmlparsing
beautifulsoup
Xpath 和通配符
我尝试了几种组合但没有成功 该数据的完整 xpath 是 id detail row seek 37878 td问题是每个节点的数字部分 37878 都会发生变化 因此我无法使用 foreach 循环遍历节点 有没有办法使用通配符并将 xp
c
xpath
screenscraping
htmlparsing
htmlagilitypack
jsoup 的奇怪编码行为
我用jsoup从不同页面的html源代码中提取一些信息 大多数都是UTF 8编码的 其中一个是用 ISO 8859 1 编码的 这会导致一个奇怪的错误 在我看来 包含错误的页面是 http www gudi ch armbanduhr me
Java
html
characterencoding
htmlparsing
Jsoup
广告过滤服务器端[关闭]
Closed 这个问题需要多问focused help closed questions 目前不接受答案 我正在开发一个 Web 应用程序 在其中显示来自其他网站的 HTML 在显示最终版本之前 我想去掉广告 关于如何实现这一目标有什么想法
html
rubyonrails
ruby
htmlparsing
ADS
如何从 .Net 中的许多 HTML 文件中读取 xpath 值?
我的一个文件夹中有大约 5000 个 html 文件 我需要循环遍历它们 打开 使用 xpath 获取 10 个值 关闭并存储在 SQL Server 数据库中 使用 Net 读取 xpath 值的最简单方法是什么 xpath 应该相当稳定
NET
xpath
htmlparsing
antisamy 解析器强制关闭标签
我使用 Antisamy 来验证 HTML 我的政策允许 iframe 例如 YouTube 视频 问题是 如果标签为空 像这样 清洗后会是这样的 但它应该有正常的结束标签 这会破坏之后页面上的所有内容 我已经将指令设置为使用大部分 HTM
Java
security
htmlparsing
owasp
antisamy
如何删除 BeautifulSoup 中的空格
我正在使用 BeautifulSoup 解析一堆 HTML 除了一个小问题外 一切进展顺利 我想将输出保存到单行字符串中 以下内容作为我当前的输出 li span class plaincharacterwrap break Zazzafo
python
regex
htmlparsing
beautifulsoup
QDomDocument 无法设置带有 标记的 HTML 文档的内容
当我使用QDomDocument对于 HTML 内容 如果存在则无法设置内容在文档的开头 但实际上为什么 例如 考虑以下代码片段 QDomDocument doc QString content a href bar foo a qDebu
QT
DOM
htmlparsing
doctype
qtxml
在 Python 3.2 中使用 HTMLParser
我一直在使用 HTML 解析器从网站中抓取数据并剥离 html 编码 我知道各种模块 例如 Beautiful Soup 但决定走不依赖 外部 模块的道路 Eloff 提供了一个代码 在 Python 中从字符串中去除 HTML https
python3x
htmlparsing
arguments
webscraping
stripping
如何在 PHP 中解析和处理 HTML/XML?
如何解析 HTML XML 并从中提取信息 Answer recommended by PHP collectives php Collective 原生 XML 扩展 我更喜欢使用其中之一原生 XML 扩展 https php net m
php
html
xml
xmlparsing
htmlparsing
使用 Beautiful Soup - Python 查找 HTML 中 1 级内的所有文本
我需要用美丽的汤来完成以下任务 HTML 示例 div Text1 div Text3 div div 我需要对此进行搜索 以便在列表的单独实例中返回给我 Text1 Text2 Text3 我尝试执行 findAll div 但它多次重复
python
htmlparsing
beautifulsoup
findAll
开源html解析类无法正确解析段落之间的空格
我正在使用一种开源方法 将 html 文本解析为 NSString 生成的字符串在前几个段落之间有大量空格 但后续段落只有一行空格 这是输出的示例 Below is the method I m calling I ve only chan
Objectivec
htmlparsing
如何使用 Jericho HTML 解析器获取特定标签之间的文本和其他标签?
我有一个包含特定标签的 HTML 文件 例如 table cellspacing 0 结束标签是 table 现在我想获取这些标签之间的所有内容 我正在 Java 中使用 Jericho HTML 解析器来解析 HTML 是否可以获取 Je
Java
htmlparsing
jerichohtmlparser
如何在python中修改html树?
假设有一些可变片段html代码 p span class code string 1 span class code string 2 span class code string 3 span span span p p span cla
python
htmlparsing
beautifulsoup
Python:使用html解析器提取特定数据
我开始使用 Python 中的 HTMLParser 从网站中提取数据 我得到了我想要的一切 除了两个 HTML 标签内的文本 以下是 HTML 标签的示例 a href http wold livingsources org vocabu
python
html
python27
htmlparsing
HTMLParser
1
2
3
4
5
6
...10
»