美丽的汤不等待页面完全加载

2024-02-15

因此，使用下面的代码，我想打开一个公寓网站 URL 并抓取网页。唯一的问题是 Beautiful Soup 不会等到整个网页渲染完毕。公寓在加载到页面上之前不会在 html 中呈现，这需要几秒钟的时间。我该如何解决？

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup

my_url = 'https://xxxxx.com/properties/?sort=latest'

uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()

 page_soup = soup(page_html, "html.parser")

 containers = page_soup.findAll("div",{"class":"grid-item"})
#len(containers) is empty since the contents haven't been loaded yet!

如果您想等待页面完全加载其数据，您应该考虑使用 selenium，在您的情况下，它可能如下所示：

from bs4 import BeautifulSoup
from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options

url = "<URL>"

chrome_options = Options()  
chrome_options.add_argument("--headless") # Opens the browser up in background

with Chrome(options=chrome_options) as browser:
     browser.get(url)
     html = browser.page_source

page_soup = BeautifulSoup(html, 'html.parser')
containers = page_soup.findAll("div",{"class":"grid-item"})

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

webscraping

beautifulsoup

美丽的汤不等待页面完全加载的相关文章

Python 的贝叶斯垃圾邮件过滤库

我正在寻找一个可以进行贝叶斯垃圾邮件过滤的 Python 库我查看了 SpamBayes 和 OpenBayes 但两者似乎都没有维护我可能是错的谁能推荐一个好的 Python 或 Clojure Common Lisp 甚至 Rub
我怎样才能用Python中的语音识别来检测一个单词

我知道如何用 Python 检测语音但这个问题更具体如何让 Python 只监听一个单词然后如果 Python 可以识别该单词则返回 True 我知道我可以让 Python 一直监听然后做出类似的东西伪代码 while True
Panda如何将行分组到不同的时间桶中？

我有一个带有名为时间戳的日期时间类型列的数据帧我想根据时间部分的时间戳将数据帧拆分为多个数据帧每个数据帧包含按其值模 x 分钟进行值的行其中 x 是变量请注意e and f不按原来的顺序以 10 分钟为模我希望所有时间都以3在一
确定是否单击了 Google Chrome 打印预览中的打印/取消按钮

我一直在使用下面的代码打印我的页面 window print 下图是 Google Chrome 浏览器中的打印预览的样子它有两个主要按钮 print and cancel 我想知道用户是否点击了print or cancel纽扣我所做
如何并排展开和折叠三个div？

document ready function toggle click function if this data name show sidebar animate width 10 hide map animate width 89
Scrapy规则如何与爬行蜘蛛一起工作

我很难理解 scrapy 爬行蜘蛛规则我有一个例子它并不像我希望的那样工作所以它可能是两件事我不明白规则是如何运作的我形成了不正确的正则表达式导致我无法获得所需的结果好吧这就是我想做的我想编写爬行蜘蛛它将获取所有可用的统
通过修改 html 设置在 Web 表单上上传的默认文件名/目录

我一直使用这个上传表单并且每次都使用相同的文件名我想知道是否有一种方法可以通过更改代码并在本地保存文件来设置表单中的文件名如果有其他方法可以实现自动化我也愿意谢谢这是来源
避免 IE 中因背景图像而出现“混合内容”警告的具体规则是什么？

这与SSL 和 CSS 背景图像导致的混合内容 https stackoverflow com questions 1548551 ssl and mixed content due to css background images但这个问
确定 TCP Listen() 队列中当前积压的连接数

有没有办法找出currentLinux 上 TCP 套接字上等待 Accept 的连接尝试次数我想我可以在每个事件循环上点击 EWOULDBLOCK 之前计算成功的 Accept 数量但我使用的是隐藏这些细节的高级库 Python Tw
使用 Python 访问 MP3 音乐数据

我正在尝试编写一个 Python 脚本用于使用歌曲的数据作为比较的基础来搜索重复的 mp3 4 文件我的情况涉及许多文件名相似但 ID3 标签不同的 mp3 4 文件起初我尝试循环并使用 md5 来查找重复文件忽略文件名当然当
PyCrypto：生成受 DES3 密码保护的 RSA 密钥

我已经能够使用 DES3 创建受密码保护的 RSA 密钥嗯 I think因为我对这个加密世界非常陌生使用以下命令 openssl genrsa out tmp myKey pem passout pass f00bar des3 20
HTML 对齐文本

我想在页面上显示文本如下所示 My Text Text Here My Text More Text Here Text from line above continued here 我有以下标记只是为了测试
SyntaxError：创建类实例时语法无效[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在 Python shell 3 3 2 中运行这段代码但它给了我SyntaxError invalid syntax cla
CSS：DIV 中的文本被截断

我正在致力于集成一个 jQuery 插件该插件会隐藏页面的某些部分直到用户单击喜欢按钮 Facebook 小部件的部分文本被切断我已经尝试过 CSS 但无法让它完全显示如果容器的宽度设置正确还有什么可能导致文本被截断例子 ht
更改滚动条样式

我们可以更改滚动条样式吗我想在其上放置图像而不是默认滚动条 No IE 允许更改某些滚动条元素的颜色但其他浏览器不唯一的解决方案是使用自定义 JS 来实现这一点但这总是比本机控件更丑陋和无用看一眼 http www kelvi
dump() 缺少 1 个必需的位置参数：python json 中的“fp”

我正在尝试美化 json 格式但收到此错误 import requests as tt from bs4 import BeautifulSoup import json get url tt get https in pinterest
Discord-py Rewrite - Cog 中的基本 aiohttp Web 服务器

我正在尝试将基本的 aiohttp 网络服务器集成到 Cog 中使用 discord py 重写我对齿轮使用以下代码 from aiohttp import web import discord from discord ext imp
为文件中的每个单词创建字典并计算其后面的单词的频率

我正在尝试解决一个难题却迷失了方向这就是我应该做的 INPUT file OUTPUT dictionary Return a dictionary whose keys are all the words in the file br
Pytorch RuntimeError：张量 a (4) 的大小必须与非单维 0 处张量 b (3) 的大小匹配

我使用的代码来自here https www learnopencv com image classification using transfer learning in pytorch 训练模型来预测印刷样式编号0 to 9 idx t
Django ALLOWED_HOSTS 与 CORS(django-cors-headers)

ALLOWED HOSTS 和 CORS 之间有什么区别如果我定义了 ALLOWED HOSTS 我还需要定义 CORS 吗我没有使用 django 模板我也有可能动态定义这两个吗我认为没有我使用 django 作为后端并在不同

随机推荐

如何在 React js - JSX 中动态创建输入文本字段？

我对 ReactJS 还很陌生我遇到了一个场景我必须创建 6 个彼此非常相似的输入字段现在我的类渲染方法中有类似的东西 render return div p p div
如何使“旧式”异步方法可等待

如果我有一个带有回调的异步方法 MyMethodAsync
如何从 jar 库创建 OSGi 包？

如何从 jar 库创建 OSGi 包如果您使用的是 eclipse 有一个向导它允许您选择多个 jar 库并创建包含这些 jar 的插件项目即 OSGi 包你可以在这里找到它 File gt New gt Other gt Plug
从 PL/SQL 调用/使用 JMS

是否可以从 PL SQL 调用使用 JAVA 消息服务 JMS 我知道我们可以从 pl SQL 调用 java 但是调用 java 与调用 JMS 队列或 JMS 主题不同因为 JMS 依赖于 JNDI 资源命名当我们使用基于 JND
Python 大量迭代失败

我写的简单蒙特卡罗计算 http math fullerton edu mathews n2003 montecarlopimod htmlPython 程序使用多处理模块它工作得很好但是当我为每个工作人员传递 1E 10 次迭代时
Spring MVC ExceptionHandler 实现平静和正常

我想处理正常请求和休息 ajax 请求的异常这是我的代码 ControllerAdvice public class MyExceptionHandler ExceptionHandler Exception class public M
wampserver 主页仅从本地主机可见

最近我用过WAMPserver 在Windows机器上搭建服务器环境一切都很好但我有一个小问题每个人都可以访问wampserver主页因此他们可以看到同一服务器上托管的其他网页服务器文件系统等网页的 URL 具有以下格式 hos
Android PlaceFilter 与 Google Places API 的使用

我正在尝试使用 Google Places API 并且想将搜索过滤为仅健身房类型我正在使用给出的代码https developers google com places https developers google com place
Mongoose 查询最近 24 小时内的文档，每小时仅查询一个文档

我正在编写一个应用程序其中有一些天气传感器每 5 分钟将空气温度和湿度发送到服务器我想画一张图表来显示温度和湿度如何变化即一夜之间我的想法是根据过去 24 小时的数据绘制图表我自己无法弄清楚所以我想也许我可以在这里寻求帮助当然
如何使用操作和控制器名称获取 ActionDescriptor

给定操作名称控制器名称和 HTTP 动词 GET POST 等是否可以检查该操作是否具有即被修饰特定的操作过滤器属性请注意操作和控制器不是当前操作和控制器而是可以是应用程序中的任何操作和控制器 Thanks 我已经回答了我自己
mac下appium的安装目录

我已经从 MAC 终端安装了 appium 1 5 1 安装没问题但由于某种原因我需要安装它的路径谁能告诉我安装目录在哪里如果您安装了 GUI appium 应用程序您可以在 Mac 的 Launchpad 中单击其图标的应用程序
服务结构提醒

文档 https learn microsoft com en us azure service fabric service fabric reliable actors timers reminders actor reminders
ASP.NET Core RC2 区域未发布

所以我刚刚更新了我的应用程序以使用 ASP NET Core RC2 我使用 Visual Studio 发布了它并注意到我的区域未发布这张快照来自src MyProject bin Release PublishOutput 这是我的
python pdb：捕获异常后恢复代码执行？

如果我运行代码ipython pdbmagic 启用并且代码抛出异常有什么办法告诉代码之后继续执行吗例如假设例外是ValueError x 0 not allowed 我可以在 pdb 中设置x 1并允许代码继续恢复执行我认为您
Fancybox (jQuery) - 将信息从父级传递到 iframe 并将 iframe 传递回父级

我正在尝试在我的页面上打开一个 fancybox iframe 将一些基本信息传递给 iframe 然后我想让 iframe 与其父级对话我静态地传递 nameid 1 尽管我真的很想将其作为变量例如 var nameid this a
使用 Entity Framework 6 迁移创建索引

有没有办法使用实体框架代码优先迁移在 MS SQL Server 数据库中创建索引如果索引必须是至少下降一列包括其他列它必须产生这样的东西 CREATE NONCLUSTERED INDEX IX IndexName ON dbo
NSTableView 中的 NSButtonCell：点击处理

I set NSButtonCell作为一种细胞类型Table Column in my NSTableView 我实施了一个IBAction方法但我无法将其连接NSButtonCell在 IB 中线路不想突出显示来自的按钮NSTabl
PostgreSql：仅选择周末

我有一张包含公共假期的表格 id description date 1 Ferragosto and Assunzione 2012 08 15 00 00 00 2 Tutti i santi Ognissanti 2012 11 01
在 Maven 依赖项中插入许可证

我已经使用 JxBrowser 进行了一些测试并打算将其添加到我的学术项目中然而它是一个 Maven 项目我使用 Netbeans IDE 开发虽然我添加了 TeamDev JxBrowser 存储库但 JxBrowser 依赖
美丽的汤不等待页面完全加载

因此使用下面的代码我想打开一个公寓网站 URL 并抓取网页唯一的问题是 Beautiful Soup 不会等到整个网页渲染完毕公寓在加载到页面上之前不会在 html 中呈现这需要几秒钟的时间我该如何解决 from urllib

美丽的汤不等待页面完全加载

美丽的汤不等待页面完全加载 的相关文章

随机推荐

热门标签

美丽的汤不等待页面完全加载的相关文章