Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
BeautifulSoup 找不到正确解析的元素
我在用BeautifulSoup解析一堆可能非常脏的HTML文件 我偶然发现了一件非常奇怪的事情 HTML 来自这个页面 http www wvdnr gov http www wvdnr gov 它包含多个错误 例如多个
python
html
beautifulsoup
htmlparsing
html5lib
如何提取“br”之前的文本?
我有一个小问题 我正在使用 python 2 7 8 我正在尝试提取应该在 br gt 我有喜欢 div class entry content p Here is a listing of C interview questions on
python
html
beautifulsoup
htmlparsing
如何在 PHP 中从 HTML 列表中提取结构化文本?
我有这个字符串 ul li Page 1 li li Page 2 ul li Sub Page A li li Sub Page B li li Sub Page C ul li Sub Sub Page I li ul li ul li
php
htmlparsing
按元素过滤 XML [重复]
这个问题在这里已经有答案了
php
htmlparsing
simplexml
python 中的字数统计
我想计算从网站上获取的文本的字数 我正在尝试下面的代码 import requests from bs4 import BeautifulSoup from urllib request import urlopen def get tex
python
URL
beautifulsoup
htmlparsing
wordcount
DomParser parseFromString 删除节点
我在使用 DomParser 时遇到了一些奇怪的行为 看来如果第一个元素是模板 它将被忽略 请参阅下面的输出 printTags
javascript
templates
htmlparsing
domparser
如何使用 Jsoup 获取此文本?
如何使用 Jsoup 从以下 html 代码中获取 此文本 h2 class link title a href myhref html this text img width 10 height 10 src img jpg span c
Java
cssselectors
htmlparsing
Jsoup
如何使用 SimpleHtmlDom 在 HTML 的 head 标签之间插入链接标签
我试图通过使用来操作 HTML 代码simplehtmldom sourceforge net http simplehtmldom sourceforge net 这是我到目前为止所得到的 我可以创建一个新文件或将索引 html to 索
php
htmlparsing
在 Python 2.7.3 / Raspberry Pi 中使用特殊字符取消转义 HTML
我被困在这里试图取消转义 HTML 特殊字符 有问题的文本是 Rudimental amp Emeli Sand 应该转换为Rudimental 和 Emeli Sand 文本通过 WGET 下载 在 python 之外 要对此进行测试 请
python27
characterencoding
htmlparsing
RaspberryPi
pythonunicode
Rails 中的元标记解析[关闭]
Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我正在寻找一些东西来帮助我解析类似网站的一般元标签我发现这个 github 项目用于开放图形数据 ht
rubyonrails
rubyonrails3
metadata
htmlparsing
metatags
Ruby 中的 HTML 解析器转换为 DOM
Ruby 中是否有任何 HTML 解析器可以将 HTML 文档读入 DOM 树并将 HTML 标签表示为 DOM 元素 我知道 Nokogiri 但它不会将 HTML 解析为 DOM 树 尽管有你的评论 Nokogiri 是正确的选择 do
html
ruby
DOM
htmlparsing
nokogiri
解析 HTML 未输出所需数据(FedEx 的跟踪信息)
我正在尝试制作一个脚本来从联邦快递网站获取跟踪信息 我想 如果我只是访问网址 https www fedex com fedextrack tracknumbers 并将跟踪号码粘贴在其末尾 它会将我带到跟踪页面 其中包含我的信息需要 我尝
python
htmlparsing
urllib
fedex
通过 DOM 解析 HTML 表
我相信页面的标记是我遇到的问题的一部分 所以我想我需要发布源代码和 JSFiddleJSFiddle http jsfiddle net 45xa9 和原来的 我正在尝试获取诸如名称 和地址 之类的信息 从底部的表格 尝试解决方案 我编写了
php
html
Parsing
DOM
htmlparsing
在 C# 中从字符串(包括 HTML 标签)创建字典或列表
A 有一个像这样的字符串 string s tr td 11 td td 12 td tr tr td 21 td td 22 td tr tr td 31 td td 32 td tr 如何创建Dictionary
c
htmlparsing
htmltable
Scrapy - 如何每天抓取新页面
我正在评估 scrapy 是否适合我 我想要的只是每天抓取几个体育新闻网站的最新头条新闻并提取标题 日期和文章正文 我不关心文章正文中的链接 我只想要正文 据我了解 爬行是一项一次性工作 它根据发现的链接爬行整个网站 我不想锤击网站 也不想
htmlparsing
webscraping
Scrapy
如何借助 HTMLEditorKit 检索 HTML 的标题
我想借助 java 的 HTMLEditorKit 检索 TITLE 属性 这是我写的 但它会一直返回 null 而 Eclipse 中的检查器并没有多大帮助 import java io FileReader import java io
Java
Swing
htmlparsing
htmleditorkit
解析 HTML:Python 中的 lxml 错误
我正在编写一个简单的脚本来从中获取大灰色表here http www afi com 100years movies10 aspx 我的代码如下 import urllib2 from lxml import etree html urll
python
htmlparsing
lxml
使用 DOMDocument,是否可以获取某个 DOM 中存在的所有元素?
假设我有一个包含许多不同元素的 HTML 文件 每个元素都有不同的属性 假设我事先不知道这个 HTML 会是什么样子 使用 PHP 的 DOMDocument 我如何迭代ALL元素并修改它们 我看到的只是 getElementByTagNa
php
Parsing
htmlparsing
domdocument
使用 PHP 解析 HTML 并获取 h2 之后的下一个 h2 之前的所有 h3
我正在寻找文章中的第一个 h2 找到后 查找所有 h3 直到找到下一个 h2 冲洗并重复 直到找到所有标题和副标题 在您立即将此问题标记或关闭为重复解析问题之前 请注意问题标题 至于这与基本节点检索无关 我已经把那部分记了下来 我在用DOM
php
Parsing
DOM
htmlparsing
domdocument
«
1
2
3
4
5
6
7
8
...10
»