网络抓取未知数据结构（JSON、嵌套列表或其他什么？）

2024-05-01

我构建了一个网络抓取工具this https://campus.datacamp.com/courses/intro-to-python-for-data-science/chapter-1-python-basics该页面取决于将字符串解析为 JSON 文件。但他们对该网站进行了一些更新，现在抓取工具已经停止工作。我认为问题在于我需要的信息不再是 JSON 结构。

这是我原来的：

# Packages
from bs4 import BeautifulSoup
from urllib.request import urlopen, urlretrieve
import json
import ast

# The part that still works
address = 'https://campus.datacamp.com/courses/intro-to-python-for-data-science/chapter-1-python-basics?ex=2' 
html = urlopen(address)
soup = BeautifulSoup(html, 'lxml')
string = soup.find_all('script')[2].string
json_text = string.strip('window.PRELOADED_STATE = "')[:-2]

# The part that's now broken
lesson = json.loads(json_text)

#> Traceback (most recent call last):
#> <ipython-input-11-f9b7d249d994> in <module>()
#>       2 # The part that's now broken
#>       3 
#> ----> 4 lesson = json.loads(json_text)
#> ~/anaconda3/lib/python3.6/json/__init__.py in loads(s, encoding, cls, object_hook, parse_float, parse_int, parse_constant, object_pairs_hook, **kw)
#>     352             parse_int is None and parse_float is None and
#>     353             parse_constant is None and object_pairs_hook is None and not kw):
#> --> 354         return _default_decoder.decode(s)
#>     355     if cls is None:
#>     356         cls = JSONDecoder
#> ~/anaconda3/lib/python3.6/json/decoder.py in decode(self, s, _w)
#>     337 
#>     338         """
#> --> 339         obj, end = self.raw_decode(s, idx=_w(s, 0).end())
#>     340         end = _w(s, end).end()
#>     341         if end != len(s):
#> ~/anaconda3/lib/python3.6/json/decoder.py in raw_decode(self, s, idx)
#>     355             obj, end = self.scan_once(s, idx)
#>     356         except StopIteration as err:
#> --> 357             raise JSONDecodeError("Expecting value", s, err.value) from None
#>     358         return obj, end
#> JSONDecodeError: Expecting value: line 1 column 2 (char 1)

问题是所有的信息都在json_text不再采用 JSON 结构。

need_to_parse = BeautifulSoup(json_text, 'lxml').string #Escape HTML
print(len(need_to_parse))
#> 61453
print(need_to_parse[:50])
#> ["~#iM",["preFetchedData",["^0",["course",["^0",["
print(need_to_parse[-50:])
#> "type","MultipleChoiceExercise","id",14253]]]]]]]]

我想也许是一个嵌套列表，所以我尝试了ast.literal_eval()，但没有运气！

parsed_list = ast.literal_eval(need_to_parse)
#> Traceback (most recent call last):
#>   File "/Users/nicholascifuentes-goodbody/anaconda3/lib/python3.6/site-packages/IPython/core/interactiveshell.py", line 2862, in run_code
#>     exec(code_obj, self.user_global_ns, self.user_ns)
#>   File "<ipython-input-13-55b60da762d6>", line 2, in <module>
#>     parsed_list = ast.literal_eval(need_to_parse)
#>   File "/Users/nicholascifuentes-goodbody/anaconda3/lib/python3.6/ast.py", line 48, in literal_eval
#>     node_or_string = parse(node_or_string, mode='eval')
#>   File "/Users/nicholascifuentes-goodbody/anaconda3/lib/python3.6/ast.py", line 35, in parse
#>     return compile(source, filename, mode, PyCF_ONLY_AST)
#>   File "<unknown>", line 1
#>     ["~#iM",["preFetchedData"

完整的输出位于txt file HERE https://www.dropbox.com/s/jwv03bekok9tnr2/output.txt?dl=0.

有人认识这个数据结构吗？解析它的最佳方法是什么？

创建于 2018-10-19reprexpy 包 https://github.com/crew102/reprexpy

import reprexpy
print(reprexpy.SessionInfo())
#> Session info --------------------------------------------------------------------
#> Platform: Darwin-17.7.0-x86_64-i386-64bit (64-bit)
#> Python: 3.6
#> Date: 2018-10-19
#> Packages ------------------------------------------------------------------------
#> beautifulsoup4==4.6.0
#> reprexpy==0.1.1

数据结构是一个 Javascript 数组（嵌套数组），序列化为字符串并转义 html 实体。

在浏览器控制台中，您可以unescape https://stackoverflow.com/a/42182294/5320906它并调用eval在未转义的字符串上获取数组。

For me, ast.literal_eval raises SyntaxError，因此字符串必须包含不是有效 Python 语法的 Javascript 元素。即使没有，ast.literal_eval例如，对于语法上有效的 Python 但值非法的 Javascript 元素，仍然可能会失败null或带有不带引号的键的对象。

要解析它，你需要使用 Javascript 解析器，或者找到一个解析 Javascript 的 Python 工具 - 答案这个问题 https://stackoverflow.com/q/390992/5320906列出了一些，但请注意，它自 2014 年以来已关闭，因此可能有更新的解决方案可用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

网络抓取未知数据结构（JSON、嵌套列表或其他什么？）的相关文章

如何在Python中同时运行两只乌龟？

我试图让两只乌龟一起移动而不是一只接着另一只移动例如 a turtle Turtle b turtle Turtle a forward 100 b forward 100 但这只能让他们一前一后地移动有没有办法让它们同时移动有没有
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
如果未引发异常，则通过 Python 单元测试

在Python中unittest框架是否有一种方法可以在未引发异常的情况下通过单元测试否则会因 AssertRaise 而失败如果我正确理解你的问题你could做这样的事情 def test does not raise on va
没有名为 StringIO 的模块

我有Python 3 6 我想从另一个名为 run py 的 python 文件执行名为 operation py 的 python 文件 In operation py I do from cStringIO import StringI
Emacs 24.x 上的 IPython 支持

我对 IPython 与 Emacs 的集成感到困惑从 Emacs 24 开始 Emacs 附带了自己的python el 该文件是否支持 IPython 还是仅支持 Python 另外维基百科 http emacswiki org e
一段时间后终止线程的最 Pythonic 方法

我想在线程中运行一个进程它正在迭代一个大型数据库表当线程运行时我只想让程序等待如果该线程花费的时间超过 30 秒我想终止该线程并执行其他操作通过终止线程我的意思是我希望它停止活动并优雅地释放资源我认为最好的方法是通过Thre
在 matplotlib 中的极坐标图上移动径向刻度标签

From matplotlib 示例 http matplotlib org examples pylab examples polar demo html import numpy as np import seaborn as sbs
Java：不使用 Arrays.sort() 对整数数组进行排序

这是我们 Java 课程的练习之一中的说明首先我想说我做了我的功课我不仅仅是懒惰地请 Stack Overflow 上的人帮我回答这个问题在所有其他练习中这个特定项目一直是我的问题因为我一直在努力寻找完美的算法编写JAVA
pytest：同一接口的不同实现的可重用测试

想象一下我已经实现了一个名为的实用程序可能是一个类 Bar在一个模块中foo 并为其编写了以下测试测试 foo py from foo import Bar as Implementation from pytest import ma
使用Python计算目录的大小？

在我重新发明这个特殊的轮子之前有没有人有一个很好的例程来使用 Python 计算目录的大小如果例程能够很好地以 Mb Gb 等格式格式化大小那就太好了这会遍历所有子目录总结文件大小 import os def get size s
Python pip install pyarrow错误，无法执行'cmake'

我尝试在 EMR 集群的主实例上安装 pyarrow 但总是收到此错误 hadoop ip XXX XXX XXX XXX sudo usr bin pip 3 4 install pyarrow Collecting pyarrow Do
将文本拆分为数组，同时保留 Swift 中的标点符号

我想将文本拆分为一个数组保持标点符号与其余单词分隔开因此字符串如下 Hello I am Albert Einstein 应该变成这样的数组 Hello I am Albert Einstein 我尝试过sting components
使用 Keras np_utils.to_categorical 的问题

我正在尝试将整数的 one hot 向量数组制作为 keras 将能够使用的 one hot 向量数组来拟合我的模型这是代码的相关部分 Y train np hstack np asarray dataframe output vecto
从多维无穷大数组中删除数组元素

我想删除一个特定元素例如我想删除元素id 76在下面的数组中而且数组可以无限地组合在一起这里的问题是我无法刷新页面因为我使用 Vue js 进行即时操作如果我能做到这一点我的下一个问题可能是如何在我现在想要的地方添加一个元素
Elasticsearch 通过搜索返回拼音标记

我用语音分析插件 https www elastic co guide en elasticsearch plugins current analysis phonetic html由于语音转换从弹性搜索中进行一些字符串匹配我的问题是
Python SSL X509：KEY_VALUES_MISMATCH

Python HTTPS server from http server import HTTPServer SimpleHTTPRequestHandler import ssl https stackoverflow com a 408
Django Admin 中的反向内联

我有以下 2 个型号现在我需要将模型 A 内联到模型 B 的页面上模型 py class A models Model name models CharField max length 50 class B models Model n
如何根据第一列创建新列，同时考虑Python Pandas中字母和列表的大小？ [复制]

这个问题在这里已经有答案了我在 Python Pandas 中有 DataFrame 如下所示 col1 John Simon prd agc Ann White BeN and Ann bad list Ben Wayne 我需要这样做
TKinter 中的禁用/启用按钮

我正在尝试制作一个像开关一样的按钮所以如果我单击禁用按钮它将禁用按钮有效如果我再次按下它它将再次启用它我尝试了 if else 之类的东西但没有成功这是一个例子 from tkinter import fenster Tk
Apache Beam Pipeline 写表后查询表

我有一个 Apache Beam Dataflow 管道它将结果写入 BigQuery 表然后我想查询该表以获取管道的单独部分但是我似乎无法弄清楚如何正确设置此管道依赖性我编写的新表然后想要查询与一个单独的表连接以进行某些过滤

随机推荐

Oracle 求两个时间戳的平均值

我不明白这有多难但我似乎无法在任何地方找到解决方案它是针对日期完成的但我看不到让它适用于时间戳我正在尝试做 select avg last timestmp ref timestmp as average from param 它一
查找椭圆或贝塞尔曲线上的等距点

目前我正在编写 JavaScript 代码将对象放置在屏幕上的椭圆上我试图找到能够解决这个问题之一的算法椭圆将是完美的但如果它太昂贵贝塞尔曲线也可以抱歉但不幸的是我的数学不允许我使用我找到的答案 https mathoverf
ffmpeg通过添加框或边框来扩展（而不是调整大小）视频大小

假设我有一个特殊分辨率的视频例如 1280x718 我想将其更改为 1280x720 但我宁愿只在顶部和底部添加一行而不是将 718 像素垂直插值到 720 所以基本上我正在寻找一种方法告诉 ffmpeg 创建 1280x720 的输
二维高斯函数不能产生正确的结果

我想写一个返回一个的函数np array尺寸的nx x ny包含具有均值的中心高斯分布mu and sd sig 下面的代码在某些情况下有效但在许多情况下无效有什么问题或者我还应该写什么来获得我需要的东西 import matplotl
PHP 按值对数组进行分组

我有一个像这样的数组 Array 0 gt ing 1 ing 1 gt ing 1 amount 2 gt ing 1 det 3 gt ing 1 meas 4 gt ing 2 ing 5 gt ing 2 amount 6 gt i
如何在Linux中为特定程序设置进程ID

我想知道是否有某种方法可以在运行某些应用程序之前强制使用 Linux 的某些特定进程 ID 我需要提前知道进程ID 实际上有一种方法可以做到这一点自内核 3 3 设置了 CONFIG CHECKPOINT RESTORE 在大多数发行版
类型错误：fit_transform() 需要 2 个位置参数，但给出了 3 个

我有熊猫数据框df 我想对连续和分类特征进行编码df使用不同的编码器我觉得用起来很舒服make column transformer 但是下面显示的代码失败了LabelEncoder 但可以很好地与OneHotEncoder handle
如何在Android中将图像文件转换为pdf文件

我正在尝试在 Android 应用程序中将图像文件 jpg 转换为 pdf 文件我用过itextpdf罐子和机器人文本罐都不适合我下面是使用时的代码itextpdf Document document new Document Str
JavaScript 中检查变量是否为字符串

JavaScript 中如何确定变量是字符串还是其他内容这对我有用 if typeof myVar string myVar instanceof String it s a string else it s something else
MySQL：如何检索随机行或多个随机行？

我有一个 MySQL 数据库表用于存储照片的 URL 我需要从特定类型的数据库中提取 5 条随机记录我可以像这样提取 5 条记录 SELECT Photos FROM Photos WHERE Photos Type ID 4 LIMI
在 Android Studio 中启动 Activity 时出错

我正在尝试制作一款具有多个 java 文件的 Android Studio 应用程序然而当我尝试运行我的应用程序时它说 Error while executing am start n com example company appn
在 React 中使用“ref”作为数组

当我尝试使用 Redux 在 React 中将输入引用为数组时我遇到了一些问题下面的代码将数组中的每一篇文章映射一个面板 var articles this props item array articles map article i
Anaconda-Python RequestsDependencyWarning：urllib3 (1.22) 或 chardet (2.3.0) 与支持的版本不匹配

我收到一条警告该警告似乎没有在任何其他在线资源中涵盖我安装了 Anaconda Python 3 6 创建新的 Conda 环境时收到的警告是 RequestsDependencyWarning urllib3 1 22 or char
从 *Roated* 子组件访问父 @Component 和变量

我正在尝试使用嵌套子组件中的按钮切换位于主应用程序模板顶部的侧面导航菜单我不知道如何到达父级中的 sidenav 组件来告诉它sidenav open 我知道子组件上的 Input 和 Output 但据我了解要使用它我需要有某种 D
如何使用UIPageViewController同时显示上一个和下一个视图的一部分

我使用了这个很棒的教程如何在 Swift 中使用 UIPageViewController https spin atomicobject com 2015 12 23 swift uipageviewcontroller tutorial
从多个 csv 文件中提取行和文件名

我的文件夹中有多个以日期为文件名的 csv 文件 20080101 csv 到 20111031 csv csv 文件具有共同的标题 csv 文件如下所示 20080101 csv X Y Z 1 1 3 1 2 6 1 3 24 2 1
检查手机是否可以发送短信

我已经读过一些相关的问题但大多数都是针对呼叫而不是短信到目前为止我发现的是 TelephonyManager manager TelephonyManager context getSystemService Context TELE
如何从 jenkins 作业的 scm 轮询中排除 jenkins 文件

我正在使用声明性管道语法我的 jenkins 文件存储在 git hub 存储库中与要构建的代码分开因此我设置了 jenkins 作业以从 scm 获取管道脚本并在 master 分支上选择我的 git 存储库在我的管道脚本中我
unix下C++递归复制目录

没有任何可供使用的功能示例c without additional libs将递归文件和文件夹复制到新位置一些替代方案system cp R f dir call 我只找到这个C 中的递归目录复制 https stackoverflow
网络抓取未知数据结构（JSON、嵌套列表或其他什么？）

我构建了一个网络抓取工具this https campus datacamp com courses intro to python for data science chapter 1 python basics该页面取决于将字符串解析为

网络抓取未知数据结构（JSON、嵌套列表或其他什么？）

网络抓取未知数据结构（JSON、嵌套列表或其他什么？） 的相关文章

随机推荐

热门标签

网络抓取未知数据结构（JSON、嵌套列表或其他什么？）的相关文章