如何使用 Python 提取在 HTML 页面 javascript 块中定义的 JSON 对象？

2024-03-27

我正在下载其中定义了数据的 HTML 页面，方法如下：

... <script type= "text/javascript">    window.blog.data = {"activity":{"type":"read"}}; </script> ...

我想提取“window.blog.data”中定义的 JSON 对象。有没有比手动解析更简单的方法？（我正在研究 Beautiful Soap，但似乎找不到一种无需解析即可返回确切对象的方法）

Thanks

Edit:使用 python 无头浏览器（例如 Ghost.py）来执行此操作是否可能且更正确？

BeautifulSoup 是一个 html 解析器；这里你还需要一个 javascript 解析器。顺便说一句，一些 javascript 对象文字不是有效的 json （尽管在您的示例中文字也是有效的 json 对象）。

在简单的情况下，您可以：

extract <script>使用 html 解析器的文本
假使，假设window.blog...是单行或者没有';'在对象内部并使用简单的字符串操作或正则表达式提取 javascript 对象文字
假设字符串是有效的 json 并使用 json 模块解析它

Example:

#!/usr/bin/env python
html = """<!doctype html>
<title>extract javascript object as json</title>
<script>
// ..
window.blog.data = {"activity":{"type":"read"}};
// ..
</script>
<p>some other html here
"""
import json
import re
from bs4 import BeautifulSoup  # $ pip install beautifulsoup4
soup = BeautifulSoup(html)
script = soup.find('script', text=re.compile('window\.blog\.data'))
json_text = re.search(r'^\s*window\.blog\.data\s*=\s*({.*?})\s*;\s*$',
                      script.string, flags=re.DOTALL | re.MULTILINE).group(1)
data = json.loads(json_text)
assert data['activity']['type'] == 'read'

如果假设不正确，则代码将失败。

为了放宽第二个假设，可以使用 JavaScript 解析器代替正则表达式，例如，slimit http://slimit.readthedocs.org/ (由@approximatenumber 建议 https://ru.stackoverflow.com/questions/501556/%d0%9a%d0%b0%d0%ba-%d0%bf%d0%be%d0%bb%d1%83%d1%87%d0%b8%d1%82%d1%8c-%d0%b8%d0%bd%d1%84%d0%be%d1%80%d0%bc%d0%b0%d1%86%d0%b8%d1%8e-%d0%b8%d0%b7-%d1%81%d1%82%d1%80%d0%be%d0%ba%d0%b8-json-%d0%ba%d0%be%d1%82%d0%be%d1%80%d0%b0%d1%8f-%d1%83%d0%ba%d0%b0%d0%b7%d0%b0%d0%bd%d0%b0-%d0%b2-javascript-%d0%ba%d0%be%d0%b4%d0%b5-%d0%b2%d0%bd%d1%83%d1%82%d1%80%d0%b8/501630#comment598944_501562):

from slimit import ast  # $ pip install slimit
from slimit.parser import Parser as JavascriptParser
from slimit.visitors import nodevisitor

soup = BeautifulSoup(html, 'html.parser')
tree = JavascriptParser().parse(soup.script.string)
obj = next(node.right for node in nodevisitor.visit(tree)
           if (isinstance(node, ast.Assign) and
               node.left.to_ecma() == 'window.blog.data'))
# HACK: easy way to parse the javascript object literal
data = json.loads(obj.to_ecma())  # NOTE: json format may be slightly different
assert data['activity']['type'] == 'read'

不需要处理对象字面量（obj) 作为 json 对象。为了获得必要的信息，obj可以像其他 ast 节点一样递归访问。它将允许支持任意 javascript 代码（可以通过以下方式解析）slimit http://slimit.readthedocs.org/).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 Python 提取在 HTML 页面 javascript 块中定义的 JSON 对象？的相关文章

在单个图中，由“标签”列分割的所有列的箱线图

看着箱线图 API 页面 http seaborn pydata org generated seaborn boxplot html seaborn boxplot 我想要看起来像这样的组合的东西 gt gt gt iris sns lo
python setup.py Egg_info 失败，错误代码 1

我正在运行 Ubuntu 17 04 全新安装并且已经安装了 pip 但是当我尝试安装任何东西时我得到以下信息命令 python setup py Egg info 失败错误代码为 1 tmp pip build kBfUEp k
Pandas 在日期列上重新采样

我有一个dataframe以日期作为列我想对每日到每月的值进行平均我尝试过使用 Time Grouper 和 Resample 但它不喜欢列名称是字符串我似乎可以弄清楚如何将列变成类似DatetimeIndex 我的起始数据框 imp
在 multiprocessing.connection.Listener.accept() 给定时间后引发 TimeOutError

我正试图打断multiprocessing connection Listener accept 但迄今为止尚未成功由于它不提供timeout参数我想也许我可以使用socket setdefaulttimeout 打断它正如帖子中所建
在 Tensorflow 中使用队列将数据馈送到网络时分开验证和训练图

我一直在做大量关于如何使用队列将数据正确输入网络的研究但是我在互联网上找不到任何解决方案目前我的代码能够读取训练数据并执行训练但无需验证和测试这里有一些重要的行构成了我的代码 images volumes utils inputs
Xgboost：bst.best_score、bst.best_iteration 和 bst.best_ntree_limit 有什么区别？

当我使用 xgboost 训练我的数据时2 cates classification problem 我想使用提前停止来获得最佳模型但我对在预测中使用哪一个模型感到困惑因为提前停止将返回 3 个不同的选择例如我应该使用 preds
如何让电脑看起来像是在打字？ [复制]

这个问题在这里已经有答案了我希望它看起来像是计算机正在尝试向用户输入信息我尝试了一些代码但是当我运行它时它只是一次打印所有内容即使我一次打印 1 个 A Random sentence for x in A time sleep
自定义 pytest junitxml 失败报告

我正在尝试内省测试失败并将附加数据包含到 junit xml 测试报告中具体来说这是对外部产品的一套功能测试我想将产品的日志包含到故障报告中使用找到的方法here https stackoverflow com questions
python 函数中的任意数量的参数

我想学习如何在 python 函数中传递任意数量的参数所以我以递归方式编写了一个简单的 sum 函数如下所示 def mySum args if len args 1 return args 0 else return args 1 m
使用 BeautifulSoup 在 python 中抓取多个页面

我已经设法编写代码来从第一页中抓取数据现在我不得不在这段代码中编写一个循环来抓取接下来的 n 页下面是代码如果有人可以指导帮助我编写从剩余页面中抓取数据的代码我将不胜感激 Thanks from bs4 import Beauti
具有透明框架和不透明边缘的图例

设置图例透明度时 plt legend framealpha 0 5 它会影响背景和边缘如何仅将透明度应用于背景而不应用于边缘我努力了 plt legend edgecolor 0 0 0 1 facecolor 1 1 1 0 1 我
buildozer android NDK 未下载 Ubuntu

我使用的是 Ubuntu 16 04 LTS 操作系统我已经在 python2 和 python3 中安装了 buildozer android sdk 已安装但 buildozer 在下载 android NDK 时显示错误请帮我解
GitPython 并向 Git 对象发送命令

GitPython http gitorious org git python是一种从 python 与 git 交互的方式我正在尝试访问基本的 git 命令例如git commit m message 从此模块中根据this htt
如何使用不同的类和导入动态地使用 Python 日志记录来更改文件句柄

我无法执行即时日志文件句柄更改例如我有3节课 one py import logging class One def init self txt logging debug Hey I m the class One and I say
后视模式无效

为什么这个正则表达式在 Python 中有效但在 Ruby 中无效
Python 和 Scipy：如何拟合冯·米塞斯分布？

我正在尝试拟合来自 scipy 的冯米塞斯分布 http docs scipy org doc scipy reference generated scipy stats vonmises html http docs scipy org
在 Python 的内置数字类型上，repr 和 str 总是相同吗？

Are repr and strPython 内置数字类型相同 int bool float and complex 或者是否存在深奥的两者可能产生不同结果的情况 SO的相关问题例如this one https stackoverfl
如何获得 GTK 中的默认颜色？

Context 在 GTK 3 中人们可以设置自己的主题甚至默认主题 Adwaita 也提供两种变体浅色和深色当我编写自己的小部件用Python 时我需要获取这些颜色以避免在黑色上绘制黑色或在白色上绘制白色 Question 如
Scipy：在对整个表面进行集成时加快集成速度？

I have a probability density function pdf f x y And to get its cumulative distribution function cdf F x y at point x y y
如何将 python 包安装到 Google Dataflow 并将其导入到我的管道中？

我的文件夹结构如下 Project Pipeline py setup py dist ResumeParserDependencies 0 1 tar gz Dependencies Module1 py Module2 py Modul

随机推荐

PHP Curl 收到 502：错误网关错误

在浏览器中该 url 有效当我尝试使用 PHP curl 时我得到了 502 Bad Gateway error 这是我的代码 ch curl init curl setopt ch CURLOPT URL url query str
popen vs system：popen 和 system 一样邪恶吗？

popen 缓冲输出而系统则不缓冲这是唯一的区别吗据我所知 popen 和 system 都通过 shell 运行命令然而 popen 是evil http www cplusplus com forum articles 1115
使用“using”关键字使继承的构造函数公开[重复]

这个问题在这里已经有答案了我正在尝试测试我的类的受保护方法和构造函数为此我尝试对其进行子类化并使用 C 11 将其成员重新导出为 publicusing关键词 class Foo protected Foo int i void r
添加对 CountVectorizer (sklearn) 的词干支持

我正在尝试使用 sklearn 将词干添加到 NLP 中的管道中 from nltk stem snowball import FrenchStemmer stop stopwords words french stemmer French
Keycloak java.lang.NoClassDefFoundError：使用 Springboot 的 java/security/acl/Group

因此我们正在构建一个带有 Keycloak 集成的 Spring Boot 后端但是在 docker swarm 服务上运行后端时出现以下错误 2020 06 29 21 17 51 694 ERROR 1 nio 3304 exec
MigraDoc C# 在同一行左右对齐

我有一个带有单元格的表格其中我想要两个文本第一个文本左对齐第二个文本右对齐位于同一单元格的同一行上我尝试使用 MigraDoc 重现此单元但没有成功我只能添加左右对齐的两个文本但不能在同一行上这是我的代码 Cell cel
在 Python 中向已运行的 cmd 发送命令

我有一个Python脚本可以绕过Windows中的UAC 绕过用户帐户控制然后我需要能够以某种方式与打开的 CMD 进行通信并向其传递命令例如回声测试我只能找到打开新命令并与其通信的代码然而这并没有帮助因为我需要与我通过 UA
如何在没有 UDID 的情况下跟踪 iOS5 上的下载

谁知道如何在没有 UDID 的情况下跟踪 iOS 应用程序下载通过网络广告我认为这是不可能的特别是如果用户从网站转到 AppStore 但一家名为 WDA 的公司似乎使这成为可能 http www lovefortech com 20
无法序列化会话 Bean - 引发警告

我正在使用 EclipseLink JPA 2 0 在 netbeans 中运行 JSF Primefaces tomcat 6 0 32 的环境我的应用程序工作正常但每次运行它时我都会收到很多警告指出无法序列化我的会话 bean
autovacuum (VACUUM) 是这个 PostgreSQL UPDATE 查询偶尔需要几个小时才能完成运行的原因吗？

此 sql 查询通常只需要几分钟即可运行 update import parts ip set part manufacturer id pslc part manufacturer id from parts part supplier
Go 中的结构体大小

我正在研究 Go 它看起来很有前途我想弄清楚如何获取 go 结构的大小例如例如 type Coord3d struct X Y Z int64 我当然知道它是 24 个字节但我想以编程方式知道它您有任何想法如何做到这一点吗罗杰已
如何制作具有透明背景的OpenGL渲染上下文？

渲染上下文通常在背景上有纯色黑色或其他颜色请参见下图我想知道是否可以设置一个没有装饰且具有透明背景的窗口同时允许我在其上渲染 OpenGL 内容这会给人一种三角形漂浮在屏幕上的错觉透明背景应该允许您看到桌面或可能位于其后面的其他
Silverlight 能否访问可访问 USB 端口的 .Net 库？

我们有一个 Net 库可以通过 USB 端口访问一些自定义硬件我读到 Silverlight 包含 Net 运行时的子集所以我的问题是这个子集足以让 Net 库运行吗不可以您不能使用从 Silverlight 内部访问 USB
使用 plone.memoize.ram 使 memoize 无效/阻止

我和 Zope 实用程序提供了一种执行网络进程的方法由于结果在一段时间内有效我正在使用plone memoize ram缓存结果 MyClass object cache cache key def do auth self adapt
GitHub，推送错误：远端意外挂断

我现在无法将本地提交推送到 github 存储库我收到一条错误消息 Counting objects 76 done Delta compression using up to 8 threads Compressing objects
如何使用jquery发送int类型参数

我正在构建一个 Web 服务它将使用 jquery 与网页进行通信我想构建我的 Web 服务使其类型安全而不需要在服务器端执行转换如何使用 jquery 从客户端发出 ajax 调用到需要 int 值参数的服务器编辑我明白这是
如何在 iOS 上使用 AVMutableComposition 和 CALayers 将多个 CALayer 添加到视频文件

我想添加多个CALayer按时间顺序一个接一个我可以使用此链接向视频文件添加一层Here https stackoverflow com q 5997677 1450762 现在我的问题是如何添加多个CALayer到视频文件提前致谢最
如何在程序中包含数据对象文件（图像等）并访问符号？

我使用以下命令将几个资源文件转换为 obj 文件objcopy我将它们与我的程序源代码链接起来我可以使用以下代码很好地访问程序中目标文件内的符号但只能使用 GCC G Cygwin extern uint8 t data asm bin
为什么 Supervisor.start_child 不起作用

我是 Elixir 的初学者我有一个应用程序在 application ex 中启动一个自定义主管代码 defmodule MyApp do use Application def start type args do import S
如何使用 Python 提取在 HTML 页面 javascript 块中定义的 JSON 对象？

我正在下载其中定义了数据的 HTML 页面方法如下我想提取 window blog data 中定义的 JSON 对象有没有比手动解析更简单的方法我正在研究 Beautiful Soap 但似乎找不到一种无需解析即可返回确切对象的方

如何使用 Python 提取在 HTML 页面 javascript 块中定义的 JSON 对象？

如何使用 Python 提取在 HTML 页面 javascript 块中定义的 JSON 对象？ 的相关文章

随机推荐

热门标签

如何使用 Python 提取在 HTML 页面 javascript 块中定义的 JSON 对象？的相关文章