Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
HTML 解析和删除锚标记,同时使用 Jsoup 保留内部 html
我必须解析一些html并删除锚标记 但我需要保留锚标记的innerHTML 例如 如果我的 html 文本是 String html div p some text a href some link text a p div 现在我可以解析
Java
htmlparsing
Jsoup
HtmlAgilityPack 设置节点 InnerText
我想用其他文本替换 HTML 标签的内部文本 我正在使用 HtmlAgilityPack我使用这段代码来提取所有文本 HtmlDocument doc new HtmlDocument doc Load some path foreach
c
Parsing
htmlparsing
htmlagilitypack
以编程方式将网页保存到静态 HTML 文件的最佳方法
我做的研究越多 前景就越黯淡 我正在尝试使用 Python 进行平面保存或静态保存网页 这意味着将所有样式合并到内联属性 并将所有链接更改为绝对 URL 我尝试过几乎所有免费的转换网站 api 甚至 github 上的库 没有一个是那么令人
python
html
css
htmlparsing
匹配嵌套的html注释块正则表达式[重复]
这个问题在这里已经有答案了 我有这个 html 代码块 some html content here top base some html content here 1 top some html content here 2 top so
regex
perl
htmlparsing
PHP- HTML 解析 :: 如何使用简单的 html dom 解析器获取网页的字符集值?
PHP 如何简单地获取网页的字符集值html dom 解析器 http simplehtmldom sourceforge net utf 8 windows 255 等 备注 必须使用 html dom 解析器来完成http simple
php
Parsing
htmlparsing
simplehtmldom
phpparser
CodeIgniter:帮助从网页获取元标记的类/库?
我正在使用代码点火器 我想我使用哪个 php 框架并不重要 但在我编写自己的类之前 已经编写了另一个类 该类允许用户获取任何站点的页面标题和元标记 关键字 描述 如果有的话 任何能够做到这一点的 PHP 类都很棒 谢谢大家 你应该看看这个类
php
codeigniter
htmlparsing
metatags
使用perl从多表html文件中提取特定表[关闭]
Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案 我有一个包含三个表的 html 文件 但我只想提取三张表中的一张 我该怎么做呢 您可以使用已知的Perl模块如 LWP WWW Mechan
perl
htmlparsing
extract
使用java进行HTML解析[重复]
这个问题在这里已经有答案了 可能的重复 可以解析 HTML 文档并构建 DOM 树 java https stackoverflow com questions 1433250 possible to parse a html docume
Java
html
xml
DOM
htmlparsing
网页抓取、屏幕抓取、数据挖掘技巧? [关闭]
就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
Java
screenscraping
htmlparsing
datamining
webscraping
Html 敏捷包未加载 url
我有这样的事情 class MyTask public MyTask int id Id id IsBusy false Document new HtmlDocument public HtmlDocument Document get
c
htmlparsing
htmlagilitypack
将 HTML 文件解析为 PHP
这是将 html 文件解析为 php 的正确方法吗 RemoveHandler html htm AddType application x httpd php php htm html 保存在根文件夹中的 htaccess 文件中吗 我添
php
html
Parsing
htmlparsing
PHP htmlentities() 不转换 html 标签
我发现了一些提到该问题的帖子 但没有一个能够完全解决该问题 我需要一个函数 该函数将输出以 htmlentities 的方式转换所有特殊字符的内容 但保留所有 html 标签 我尝试了许多不同的方法 但正如我上面提到的 它们都没有按预期工作
php
xhtml
htmlparsing
domdocument
htmlentities
如何告诉 python HTMLParser 停止
我有一个用例告诉我们当标签是link它的属性是rel dns prefetch然后就说预解析dns已启用 我做了一个标志pre resolve dns enabled并将其设置为 true 如下所示 class Extractor HTML
python
DNS
htmlparsing
从字符串中的链接获取网站标题
字符串 这是徽章 https stackoverflow com badges https stackoverflow com badges布拉布拉布拉 如果字符串包含一个链接 见上文 我想解析该链接的网站标题 它应该返回 徽章 堆栈内存溢
regex
perl
htmlparsing
使用 Python 将 HTML 转为 RTF 字符串
我正在寻找一种将 HTML 文本转换为 RTF 字符串的方法 有没有任何图书馆可以完成这项工作 我在项目中动态获取 html 内容 并需要将其以 RTF 格式呈现 我正在使用 HTML 解析器将 HTML 文本转换为普通字符串 然后尝试使用
python
htmlparsing
rtf
BeautifulSoup 在按复合类名搜索时返回空列表
使用正则表达式按复合类名搜索时 BeautifulSoup 返回空列表 Example import re from bs4 import BeautifulSoup bs a class name single name692 href
python
regex
python27
beautifulsoup
htmlparsing
使用rvest,如何从submit_form()返回的对象中提取html内容
我正在尝试从 pems dot ca gov 下载一些流量数据 如下这个话题 https stackoverflow com questions 28418770 using rvest or httr to log in to non s
html
r
webscraping
htmlparsing
rvest
如何使用 Python 提取在 HTML 页面 javascript 块中定义的 JSON 对象?
我正在下载其中定义了数据的 HTML 页面 方法如下 我想提取 window blog data 中定义的 JSON 对象 有没有比手动解析更简单的方法 我正在研究 Beautiful Soap 但似乎找不到一种无需解析即可返回确切对象的方
python
htmlparsing
beautifulsoup
headlessbrowser
使用 PHP 简单 HTML DOM 解析器获取注释
我正在使用 PHP 简单 HTML DOM 解析器 我想知道是否可以提取 HTML 注释 Can you 直接来自他们的文档 Find all comment blocks es html gt find comment http simp
php
Parsing
DOM
htmlparsing
我如何使用纯javascript解析远程html页面
我需要解析远程 html 页面 例如 www mywesite com home 我如何获取此网站 html 页面源以及如何解析此页面 html是这样的 div class my class1 a href home link id 1 h
javascript
jQuery
html
htmlparsing
1
2
3
4
5
6
...8
»