BeautifulSoup 不抓取动态内容

2024-05-01

我遇到的问题是我想从此页面获取相关链接：http://support.apple.com/kb/TS1538 http://support.apple.com/kb/TS1538

如果我在 Chrome 或 Safari 中检查 Element，我可以看到<div id="outer_related_articles">以及列出的所有文章。如果我尝试用 BeautifulSoup 抓取它，它会抓取页面和所有内容except相关文章。

这是我到目前为止所拥有的：

import urllib2
from bs4 import BeautifulSoup
url = "http://support.apple.com/kb/TS1538"
response = urllib2.urlopen(url)
soup = BeautifulSoup(response.read())
print soup

此部分是使用 Javascript 加载的。禁用浏览器的 Javascript，看看如何BeautifulSoup“看到”该页面。

从这里您有两个选择：

使用无头浏览器，它将执行 Javascript。请参阅有关此问题的问题：适用于 Python 的无头浏览器（需要 JavaScript 支持！） https://stackoverflow.com/questions/6025082/headless-browser-for-python-javascript-support-required
尝试弄清楚苹果网站如何加载内容并模拟它 - 它可能对某个地址进行 AJAX 调用。

经过一番挖掘后，它似乎向这个地址发出了请求（）并使用 JSONP 加载结果KmLoader.receiveSuccess是接收函数的名称。使用 Chrome 开发工具的 Firebug 更详细地检查页面。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

Dynamic

beautifulsoup

BeautifulSoup 不抓取动态内容的相关文章

pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
未捕获的引用错误：myFunction 未定义[重复]

这个问题在这里已经有答案了这到底是怎么回事 http jsfiddle net sVT54 http jsfiddle net sVT54
工作日重新订购 Pandas 系列

使用 Pandas 我提取了一个 CSV 文件然后创建了一系列数据来找出一周中哪几天崩溃最多 crashes by day bc DAY OF WEEK value counts 然后我将其绘制出来但当然它按照与该系列相同的排名顺序绘制
Python3.0 - 标记化和取消标记化

我正在使用类似于以下简化脚本的内容来解析较大文件中的 python 片段 import io import tokenize src foo bar src bytes src encode src io BytesIO src src l
Pandas：如果单元格包含特定文本则删除行

pandas 中的这段代码不起作用如果该列包含提供的任何文本数字我希望它删除该行目前我只能在单元格与我的代码中传递的确切文本匹配时才能使其工作因为它只删除显示 Fin 的单元格不是金融或金融 df2 df df Team Fin
如何在 Python 中加密并在 Java 中解密？

我正在尝试在 Python 程序中加密一些数据并将其保存然后在 Java 程序中解密该数据在Python中我像这样加密它 from Crypto Cipher import AES KEY 1234567890123456789012
Emacs 24.x 上的 IPython 支持

我对 IPython 与 Emacs 的集成感到困惑从 Emacs 24 开始 Emacs 附带了自己的python el 该文件是否支持 IPython 还是仅支持 Python 另外维基百科 http emacswiki org e
结构差异 sudo() run('sudo 命令')

我想知道函数之间有什么区别sudo 和函数run sudo u user smth 文档上有 sudo 在所有运行方式上都是相同的除了它总是换行调用 sudo 程序中的给定命令以提供超级用户特权但有几次 sudo cmd 提示我输入
如果在等待“read -s”时中断，在子进程中运行 bash 会破坏 tty 的标准输出吗？

正如 Bakuriu 在评论中指出的那样这基本上与BASH 输入期间按 Ctrl C 会中断当前终端 https stackoverflow com questions 31808863 bash ctrlc during input b
iframe 重新加载按钮

我浏览了很多网站但似乎没有一个能正常工作或者我不明白它们我想要一个刷新某个 iframe 的简单按钮该按钮将位于父页面上并且 iframe 名称为 Right 有很多方法可以做到这一点假设这个iframe markup 我们可以
HTML colorpicker 发生变化时如何获取新值？

我正在开发一个需要更改 HTML 颜色的网络应用程序canvas基于的价值观colorpicker 我有一个colorpicker在我需要获取的 HTML 中value从每次更新开始
在 Windows 上使用 apache mod_wsgi 运行 Flask 应用程序时导入冲突

我允许您询问我在 Windows 上使用您的 mod wsgi portage 托管 Flask 应用程序时遇到的问题我有两个烧瓶应用程序由于导入冲突只有一个可以同时存在 IE 如果请求申请 1 我有回复然后如果我请求应用程序 2
通过索引访问Python字典的元素

考虑一个像这样的字典 mydict Apple American 16 Mexican 10 Chinese 5 Grapes Arabian 25 Indian 20 例如我如何访问该字典的特定元素例如我想在对 Apple 的第一个
如何清除WebGL中的矩形区域？

WebGL 有一个clear清除整个表面的方法清除表面的特定矩形的最佳方法是什么例如我想将一个从 50 50 开始的 100x100 像素框设置为全零 ARGB 0 0 0 0 我现在能想到的就是用一个写入零的片段着色器绘制一个四边形
使用 Keras np_utils.to_categorical 的问题

我正在尝试将整数的 one hot 向量数组制作为 keras 将能够使用的 one hot 向量数组来拟合我的模型这是代码的相关部分 Y train np hstack np asarray dataframe output vecto
Django 与谷歌图表

我试图让谷歌图表显示在我的页面上但我不知道如何将值从 django 视图传递到 javascript 以便我可以绘制图表姜戈代码 array Year Sales Expenses 2004 1000 400 2005 1170 460
我可以使用 jQuery 动态创建文件（及其内容）吗？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 这是我的 HTML 代码 ul li
python 线程安全可变对象复制

Is 蟒蛇的copy http docs python org 2 library copy html模块线程安全吗如果不是我应该如何在 python 中以线程安全的方式复制 deepcopy 可变对象蟒蛇的GIL http en w
从 pandas DataFrame 中删除少于 K 个连续 NaN

我正在处理时间序列数据我在从数据帧列中删除小于或等于阈值的连续 NaN 时遇到问题我尝试查看一些链接例如标识连续 NaN 出现的位置以及计数 Pandas NaN 孔的游程长度 https stackoverflow com que
多个对象以某种方式相互干扰[原始版本]

我有一个神经网络 NN 当应用于单个数据集时它可以完美地工作但是如果我想在一组数据上运行神经网络然后创建一个新的神经网络实例以在不同的数据集甚至再次同一组数据上运行那么新实例将产生完全错误的预测例如对 XOR 模式进行训练

随机推荐

跨程序集和命名空间的依赖注入

我正在解决一个 DI 问题我认为我了解其原因但我需要一些建议来解决我构建了一个与 Sql 对话的独立程序集将此程序集称为 a 以及另一个包含业务逻辑的程序集将此程序集称为 b 我在 b 程序集中为 db 类创建了一个接口由于该接
http客户端在Windows 8.1中取消请求

我正在开发一个 Windows Phone 8 1 项目 Windows 8 1 中有两个版本的 http 客户端 system net http and windows web http Microsoft 建议使用后者所以我决定接受
我可以在 chrome devtools 中执行 nodejs javascript 脚本吗？

是否可以使用Chrome 开发工具执行终端命令node myfile js 所以chrome控制台会输出所有console log来自我的代码我有一些terminal插件安装在我的 IDE 中当我想在我的文件上运行此命令时我使用一些键
postgres 与 docker compose 给出 FATAL: role "root" does not exit 错误

我正在尝试在具有 docker 桌面的本地 Windows 计算机上使用 postgres 创建一个简单的演示这是我的 yaml docker compose 文件名为img yaml version 3 6 services post
将 numpy float64 稀疏矩阵转换为 pandas 数据框

我有一个n x n numpy float64 sparse matrix data where n 44 其中行和列是图节点值是边权重 gt gt gt data lt 44x44 sparse matrix of type
Canvas 动画在 FireFox 中卡顿，但在 Chrome 中完美

我最近开始做一些 HTML5 Canvas 的东西并且很高兴地开展我的业务在 Chrome 中测试东西直到我决定尝试我在 Firefox 中所做的事情效果不太好这是我正在做的事情的一个简单的例子设置基本的 requestAnim
Javascript 基本继承与 Crockford 原型继承

我对 Crockford 推荐的继承感到困惑 Crockford 方法和通用默认方法之间的主要区别是什么 Crockford method function object o function F F prototype o retur
Specflow 在具有场景上下文的表中使用参数

我正在 C 中使用 Specflow 通过 Selenium 构建自动客户端浏览器测试这些测试的目的是模拟客户在特定页面进入我们网站的业务场景然后他被引导到正确的页面我想在场景上下文中使用参数例如 When I visit url
在 POST API 调用中，收到此错误“发生异常。_TypeError（类型“String”不是类型“Map”的子类型）”

在 POST API 调用中我收到此错误发生异常 TypeError 类型 String 不是类型 Map 的子类型这是我的代码 model class User String name String emailId String p
Dom解析器和Xerces解析器之间的区别

嘿谁能告诉我 Dom 解析器和 Xerces 解析器之间有什么区别两者各有什么优点和缺点 Xerces isDOM 解析器它是 Java 或 C 中的 Apache 实现您需要考虑的两个是 SAX 和 DOM DOM 在内存中创
限制特定设备销售应用程序？

是否可以通过特定设备或设备的功能屏幕分辨率处理器磁盘空间等来限制 Android Market 上应用程序的销售我知道我会受到人们的轰炸他们说如果你的应用程序设计得好它应该能够在任何尺寸的设备上运行这一切都很好但出于某些原
变量名称后面的“-”（破折号）在这里有什么作用？

if n BASH o n ZSH VERSION then hash r 2 gt dev null fi 我在哪里可以找到这方面的参考资料谢谢 a 内的变量称为参数扩展搜索该词在在线手册中 https man cx bash h
如果子级包含很长的单词，Flexbox 父级将扩展宽度

我想知道是否有人可以帮助我解决这个问题我似乎找不到其他人想要用 Flexbox 来做到这一点我已经设置了一个基本的 Flexbox 场景其中多个元素 li 出现在 Flexbox 容器 ul 中我还对其进行了设置以便在换行之前可容
为什么 Pandas 内连接给出 ValueError: len(left_on) 必须等于“right”索引中的级别数？

我正在尝试将 DataFrame A 内部连接到 DataFrame B 并且遇到错误这是我的加入声明 merged DataFrameA join DataFrameB on Code Date 这是错误 ValueError len
重构 LINQ IQueryable 表达式以删除查询的重复部分

我有一些具有冗余的 linq 查询我想分解出一段代码这些是 IQueryable 的连接表达式重要的是我不会导致查询比没有重构的情况更早进行评估这是一个简化的查询 var result from T in db Transactio
SqlBulkCopy 在单个事务下插入多个表或在实体框架和经典 Ado.net 之间进行批量插入操作

我的应用程序运行时需要插入两个表假设我有如下表格 tbl FirstTable 和 tbl SecondTable 我的问题是数据量我需要向 tbl FirstTable 插入超过 10 000 行向 tbl SecondTable
执行 set_difference 时出错：变量结果不是结构

我在函数外部全局声明了一个设置变量 std set
使用 jQuery 显示 POST 数据？

我正在使用闪光灯网络摄像头拍照它工作得很好并通过 POST 返回一个 URL 我正在用 PHP 进行编码并希望在收到该 POST 数据后显示该数据问题是我不重新加载页面我环顾四周不确定是否动态加载这个数据数组我应该去哪里寻找
Azure存储帐户说明-总请求图表

有人可以帮助我了解 Azure 存储帐户的机制以及发出某些请求时会发生什么吗请求被分解为 Blob 表队列和文件资源我的设置是创建了一个 Azure 媒体服务并在上传视频文件时创建了 5 个 Blob 每个视频 1 个当某种类
BeautifulSoup 不抓取动态内容

我遇到的问题是我想从此页面获取相关链接 http support apple com kb TS1538 http support apple com kb TS1538 如果我在 Chrome 或 Safari 中检查 Element 我

BeautifulSoup 不抓取动态内容

BeautifulSoup 不抓取动态内容 的相关文章

随机推荐

热门标签

BeautifulSoup 不抓取动态内容的相关文章