Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何使用 python HTMLParser 库从特定 div 标签中提取数据?
我正在尝试使用 python HTMLParser 库从 HTML 页面中获取值 我想要获取的值位于此 HTML 元素内 div 20 div 到目前为止 这是我的 HTMLParser 类 class LinksParser HTMLPa
python
html
Parsing
htmlparsing
使用 AWK/Grep/Bash 从 HTML 中提取数据
我正在尝试编写一个 Bash 脚本来从 HTML 页面中提取结果 我用Curl实现了获取页面内容 但下一步是解析输出 这是有问题的 该页面有趣的内容如下所示 div class result div class item div class
bash
awk
grep
htmlparsing
使用 jQuery 解析远程内容的最佳实践是什么?
在 jQuery ajax 调用检索整个 XHTML 文档之后 从结果字符串中选择特定元素的最佳方法是什么 也许有一个库或插件可以解决这个问题 jQuery 只能选择字符串中存在的 XHTML 元素 如果 W3C 规范中的 div 中通常允
jQuery
htmlparsing
使用 Beautiful Soup 从非类部分获取数据
我还是个新手 正在学习 python 和 beautiful soup 我一直困扰于如何从非类 HTML 片段中获取文本 这是我正在使用的 HTML 片段 section class userbody section
python
Parsing
python27
htmlparsing
beautifulsoup
lxml html5parser 忽略“namespaceHTMLElements=False”选项
The lxml html5解析器似乎忽略了任何namespaceHTMLElements False我传递给它的选项 它将我提供给它的所有元素放入 HTML 命名空间中 而不是 预期的 void 命名空间中 这是一个重现该问题的简单案例
html
htmlparsing
lxml
html5lib
Groovy - 来自 http URL 的文件处理
我们的一台服务器中的文件可以通过 http 访问 因此 当我们调出类似于以下内容的 url 时 我们会得到该位置的文件 目录列表 http mytestserver files 从此列表中 我只需选择那些与正则表达式格式匹配的文件 如果这是
URL
Groovy
htmlparsing
HTML 敏捷包
我在一个网页中有 html 表 例如 table border 1 tr td sno td td sname td tr tr td 111 td td abcde td tr tr td 213 td td ejkll td tr ta
c
WinForms
htmlparsing
htmlagilitypack
无法抓取数据
我刚刚开始使用 Google Apps 脚本 由于最佳编码实践建议使用尽可能少的工作表公式 因此我尝试使用 GAS Parser 进行网页抓取 然后将数据推送到我的电子表格中 在我的工作表中 使用以下公式返回一个数据表 这正是我从 GAS
googleappsscript
webscraping
htmlparsing
当正则表达式模式与字符串中的任何位置都不匹配时该怎么办?
我正在尝试匹配
regex
htmlparsing
如何从 lxml 获取原始 XML?
我使用以下代码来定位 div parser etree HTMLParser tree etree parse StringIO page parser div tree xpath div class content 0 我唯一的问题是
python
xml
htmlparsing
lxml
Python:抑制进入命令行的错误?
当我尝试从命令行执行 python 程序时 出现以下错误 这些错误不会对我的输出造成任何问题 我不希望它显示在命令行中 Traceback most recent call last File test py line 88 in
python
Exception
errorhandling
htmlparsing
如何将 Jsoup 文档转换为 W3C 文档?
我通过解析内部 HTML 页面构建了一个 Jsoup 文档 public Document newDocument String path throws IOException Document doc null doc Jsoup con
htmlparsing
Jsoup
apachestanbol
使用 BeautifulSoup CSS 选择器获取文本
HTML 示例 h2 ABC span class numbers 123 span span class lower abc span h2 我可以通过以下方式获取数字 soup select name gt span numbers 0
python
python27
cssselectors
beautifulsoup
htmlparsing
使用BeautifulSoup获取特定标签后的值
我很难让 BeautifulSoup 为我抓取一些数据 从此代码示例中访问日期 实际数字 2008 年 的最佳方法是什么 这是我第一次使用 Beautifulsoup 我已经弄清楚如何从页面上刮掉 url 但我无法完全缩小范围以仅选择单词
python
webscraping
beautifulsoup
htmlparsing
Python美汤表单输入解析
我的目标是获取所有输入名称和值的列表 将它们配对并提交表格 名称和值是随机的 from bs4 import BeautifulSoup parsing html
python
html
Parsing
beautifulsoup
htmlparsing
Jsoup.parse() 与 Jsoup.parse() - 或者 Jsoup 中的 URL 检测如何工作?
Jsoup 有 2htmlparse 方法 解析 字符串 html 由于没有指定基本 URI 因此是绝对 URL 检测依赖于包含标签的 HTML 解析 字符串 html 字符串 baseUri HTML 所在的 URL 被检索自 用于将相对
Java
htmlparsing
Jsoup
如何以比使用 strip_tags 函数更安全的方式去除标签?
当字符串包含 小于 和 大于 符号时 我在使用 strip tags PHP 函数时遇到一些问题 例如 If I do strip tags span some text lt 5ml and then gt 10ml some text
php
DOM
htmlparsing
striptags
BeautifulSoup - 获取无 HTML 内容的简单方法
我使用此代码来查找页面中所有有趣的链接 soup findAll a href re compile notizia php idn d 它的工作做得很好 不幸的是里面atag 有很多嵌套标签 例如font b和不同的东西 我想只获取文本内
python
beautifulsoup
htmlparsing
htmlcontentextraction
如何解析网页中的动态内容?
我尝试从此网址获取代理列表 免费代理列表 这很酷 但是端口号是动态 JavaScript 内容 如何从此页面获取 JavaScript 生成的内容 我有 jsoup 和 djNativeSwing 但我想在后台线程中执行此操作 JWebBr
Java
javascript
htmlparsing
Jsoup
dynamicdata
解析 HTML 表格最快、最简单、最好的方法是什么?
我正在尝试获取这张桌子http www datamystic com timezone time zones html转换为数组格式 这样我就可以用它做任何我想做的事情 最好是 PHP Python 或 JavaScript 这种问题经常出
python
regex
htmlparsing
beautifulsoup
«
1 ...
4
5
6
7
8
9
10
»