htmlparsing

NullPointerException 解析 Jsoup

我在使用 Jsoup 解析网站时遇到 NullPointerException 解析的实际网页会根据用户输入而变化本质上网页上有时有图像有时没有 Document doc Jsoup connect http www forbes c

Java Android NullPointerException htmlparsing Jsoup

如何确定字符串开头是两个还是一个数字？

我怎样才能确定什么数字带有随意的位数位于字符串的开头一些可能的字符串 1123 http example com 2 daas 应该返回 1123 和 2 使用正则表达式 using System Text RegularExpres

c Parsing htmlparsing

在 R 中解析 HTML 文件

我想从网站读取 HTML 文件具体来说我想从 gutenberg org 阅读 HTML 格式的书籍每章的标题用标签 h2 标记每章的内容在 h2 之后的段落标签 p 中使用 XML 包我可以获得每个标签的值或完整的 HTML

html r xml htmlparsing

Python BeautifulSoup：解析具有相同类名的多个表

我正在尝试解析 wiki 页面中的一些表格例如http en wikipedia org wiki List of Bollywood films of 2014 http en wikipedia org wiki List of Bo

python html python27 beautifulsoup htmlparsing

使用 BeautifulSoup 从 html 表中提取值

我正在尝试使用以下方法从 html 表中提取值bs4 但是表的结构采用以下形式 td class celda400 valign middle align right width 100 style color Black 575 42 t

python beautifulsoup htmlparsing

如何使用Java自带的解析器从HTML中提取信息？

我不想下载任何其他库我正在谈论这个 javax swing text html HTMLEditorKit Parser 如何使用此解析器提取页面中的重复信息举例来说我在页面中重复了以下代码 tr td class info1 get

Java htmlparsing

正则表达式选择标签之间的所有文本

选择 2 个标签之间的所有文本的最佳方法是什么例如所有之间的文本 pre 页面上的标签您可以使用 pre pre 用您想要的任何文本替换 pre 并提取第一组对于更具体的指令请指定一种语言但这假设您有非常简单且有效的 HTML

html regex htmlparsing

如何在 HTML 文件中搜索某些标签？

我在 Java 中遇到了一个小问题如何执行此操作我想在 HTML 文件中搜索标签 href 和 src 然后获取与该标签关联的 URL 最好的方法是什么谢谢您的帮助此致您想将其作为一次性编辑任务来完成还是需要系统即代码实现

Java html htmlparsing

加载时间：使用 PHP 的 DOMDocument 还是使用正则表达式解析 HTML 更快？

我正在将图像从我的 Flickr 帐户提取到我的网站并且我使用了大约九行代码来创建一个用于提取图像的 preg match all 函数我已经读过好几次了通过 DOM 解析 HTML 会更好就我个人而言我发现通过 DOM 解析 H

php regex DOM htmlparsing loadtime

DOM 解析器：仅删除某些属性

如何使用 DOM 解析器删除allspan 标签中的属性但是except这两个属性 span cultura span accept span heart span accept 拒绝这个 span style font family no

php DOM htmlparsing domdocument

使用 Python 和 Beautiful Soup 4 抓取 Twitter 时专注于特定结果？

这是我的帖子的后续内容使用 Python 抓取 Twitter 中的嵌套 Div 和 Spans 我没有使用 Twitter API 因为它不会通过以下方式查看推文话题标签这么远完整的代码和输出如下示例所示我想从每条推文中抓取特定数据

python twitter webscraping beautifulsoup htmlparsing

将所有链接与特定文本匹配

我正在寻找 PHP 中的正则表达式它将锚点与其上的特定文本相匹配例如我想获得带有文本 mylink 的锚点例如 a href blabla mylink a 所以它应该匹配所有锚点但前提是它们包含特定文本所以它应该匹配这些字符串

php regex htmlparsing

Jsoup div[class=] 语法有效，而 div.class 语法无效 - 为什么？

对于以下 HTML 片段 div class class one class two class three classfour classfive classsix some inner content div 以下 Jsoup 选择器w

Java htmlparsing Jsoup

Delphi：解析这个 html 表的一些技巧？

有时我试图从这个 html 表中获取数据我尝试了付费和免费的组件我尝试做一些编码但也没有结果我有一个类可以直接为 ClientDataSet 抛出 html 表但是对于这个表它不起作用有人知道如何获取此 html 表中的数据吗

html Delphi htmlparsing

暂时从 Google Translate API 的字符串中删除 HTML 以降低成本

我必须使用我们付费的 Google API 翻译一些详细信息详细信息包含 HTML Google 对每个字符收费我不想发送完整的内容而只想发送英文文本并删除 HTML 我可以使用 PHP 函数删除 HTML 标签和实体但我必须在翻

php API htmlparsing translation googletranslate

使用 htmlparser python 获取标签下的html

我想在标签下获取整个 html 并使用 HTMLParser 我当前能够获取标签之间的数据以下是我的代码 class LinksParser HTMLParser def init self HTMLParser init self se

python htmlparsing

如何在 VB6 中使用 MSHTML 解析器去除所有 HTML 标签？

如何在 VB6 中使用 MSHTML 解析器去除所有 HTML 标签这是改编自 CodeGuru 的代码非常感谢原作者 http www codeguru com vb vb internet html article php c481

VB6 htmlparsing mshtml

通过 DOM 解析器转换 PRE 标签之间的空格

正则表达式是我最初的想法作为解决方案尽管很快就发现 DOM 解析器会更合适我想将空格转换为 nbsp HTML 文本字符串中的 PRE 标记之间例如 table tr td adfa a adfadfaf gt td td br df

php html DOM htmlparsing

JSOUP HTML 解析器

有没有办法得到起始行号和列号 and 结束行号和列号元素标签我正在创建 HTML 编辑器需要突出显示标签以根据给定的某些场景进行速度优化起始和结束行号和列号不不幸的是目前 jsoup 无法做到这一点目前 Jsoup 不跟踪行号

Java html htmlparsing Jsoup

使用 jQuery 从 HTML 创建 JSON 对象

问题概述假设我有一批糖果这批货物有许多盒子每个盒子都有许多独特的糖果类型每个盒子都有一个唯一的ID 与其他盒子不同糖果类型也是如此此外糖果还有其他特征如颜色味道和数量示例代码采取以下 HTML 示例 div class

javascript jQuery json htmlparsing scrape