如何使用Beautifulsoup4等待网站返回数据

2024-03-21

我使用 beautifulsoup4 编写了一个脚本，该脚本基本上从网页上的表格中获取密码列表。

问题是我的 python 脚本不会等待网页返回的内容，并且会中断或显示“列表索引超出范围”。代码如下：

ssl_lab_url = 'https://www.ssllabs.com/ssltest/analyze.html?d='+site
req  = requests.get(ssl_lab_url)
data = req.text
soup = BeautifulSoup(data)
 print CYELLOW+"Now Bringing in the LIST of cipher gathered from SSL LABS for "+str(ssl_lab_url)+CEND
        for i in tqdm(range(10000)):
           sleep(0.01)
           table = soup.find_all('table',class_='reportTable', limit=5)[-1]
           data = [ str(td.text.split()[0]) for td in table.select("td.tableLeft")]
        print CGREEN+str(data)+CEND
        time.sleep(1)

有时它不返回任何内容data或者说：

Traceback (most recent call last):
  File "multiple_scan_es.py", line 79, in <module>
    scan_cipher_ssl(list_url )
  File "multiple_scan_es.py", line 62, in scan_cipher_ssl
    table = soup.find_all('table',class_='reportTable', limit=5)[-1]
IndexError: list index out of range

我需要在这里等待，该怎么做？

我以为这个页面使用 JavaScript 来获取数据，但它使用旧的 HTML 方法来刷新页面。

它添加了 HTML 标签<meta http-equiv="refresh" content='**time**; url>浏览器将在之后重新加载页面time秒。

您必须检查此标签 - 如果找到它，那么您可以等待，并且必须再次加载页面。大多数情况下，您可以重新加载页面而无需等待并获取数据或再次找到此标签。

import requests
from bs4 import BeautifulSoup
import time

site = 'some_site_name.com'
url = 'https://www.ssllabs.com/ssltest/analyze.html?d='+site

# --- 

while True:
    r = requests.get(url)

    soup = BeautifulSoup(r.text)

    refresh = soup.find_all('meta', attrs={'http-equiv': 'refresh'})
    #print 'refresh:', refresh 

    if not refresh:
        break

    #wait = int(refresh[0].get('content','0').split(';')[0])
    #print 'wait:', wait
    #time.sleep(wait)

# ---

table = soup.find_all('table', class_='reportTable', limit=5)

if table:
    table = table[-1]
    data = [str(td.text.split()[0]) for td in table.select("td.tableLeft")]
    print str(data)
else:
    print "[!] no data"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

如何使用Beautifulsoup4等待网站返回数据的相关文章

python：查找围绕某个 GPS 位置的圆的 GPS 坐标的优雅方法

我有一组以十进制表示的 GPS 坐标并且我正在寻找一种方法来查找每个位置周围半径可变的圆中的坐标这是一个例子 http green and energy com downloads test circle html我需要什么这是一个圆
元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
在 django ORM 中查询时如何将 char 转换为整数？

最近开始使用 Django ORM 我想执行这个查询 select student id from students where student id like 97318 order by CAST student id as UNSIG
Pandas/Google BigQuery：架构不匹配导致上传失败

我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
Pandas 日期时间格式

是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
立体太阳图 matplotlib 极坐标图 python

我正在尝试创建一个与以下类似的简单的立体太阳路径图 http wiki naturalfrequent com wiki Sun Path Diagram http wiki naturalfrequency com wiki Sun Pa
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
如何将张量流模型部署到azure ml工作台

我在用Azure ML Workbench执行二元分类到目前为止一切正常我有很好的准确性我想将模型部署为用于推理的 Web 服务我真的不知道从哪里开始 azure 提供了这个doc https learn microsoft co
Python，将函数的输出重定向到文件中

我正在尝试将函数的输出存储到Python中的文件中我想做的是这样的 def test print This is a Test file open Log a file write test file close 但是当我这样做时我收到
如何在不丢失注释和格式的情况下更新 YAML 文件 / Python 中的 YAML 自动重构

我想在 Python 中更新 YAML 文件值而不丢失 Python 中的格式和注释例如我想改造 YAML 文件 value 456 nice value to value 6 nice value 界面类似于 y yaml load
如何使用 Mysql Python 连接器检索二进制数据？

如果我在 MySQL 中创建一个包含二进制数据的简单表 CREATE TABLE foo bar binary 4 INSERT INTO foo bar VALUES UNHEX de12 然后尝试使用 MySQL Connector P
Jupyter Notebook 找不到 Python 模块

不知道发生了什么但每当我使用 ipython 氢原子或 jupyter 笔记本时都找不到任何已安装的模块我知道我安装了 pandas 但笔记本说找不到我应该补充一点当我正常运行脚本时 python script py 它确实导入
不同编程语言中的浮点数学

我知道浮点数学充其量可能是丑陋的但我想知道是否有人可以解释以下怪癖在大多数编程语言中我测试了 0 4 到 0 2 的加法会产生轻微的错误而 0 4 0 1 0 1 则不会产生错误两者计算不平等的原因是什么在各自的编程语言中可以采
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
根据列 value_counts 过滤数据框（pandas）

我是第一次尝试熊猫我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串因此会多次出现在数据帧中我想从中导出另一个数据框一个只有那些user ids列出至少有 2 个或更多string
Scipy Sparse：SciPy/NumPy 更新后出现奇异矩阵警告

我的问题是由大型电阻器系统的节点分析产生的我基本上是在设置一个大的稀疏矩阵A 我的解向量b 我正在尝试求解线性方程A x b 为了做到这一点我正在使用scipy sparse linalg spsolve method 直到最近一切都
Django-tables2 列总计

我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页
如何应用一个函数 n 次？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案假设我有一个函数它接受一个参数并返回相同类型的结果 def increment x return x 1 如何制作高阶函数repeat可以
cv2.VideoWriter：请求一个元组作为 Size 参数，然后拒绝它

我正在使用 OpenCV 4 0 和 Python 3 7 创建延时视频构造 VideoWriter 对象时文档表示 Size 参数应该是一个元组当我给它一个元组时它拒绝它当我尝试用其他东西替换它时它不会接受它因为它说参数不是

随机推荐

如何使用R表函数获取比例？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我有一个犯罪数据集其中变量很少如 ID Year Date Arrest 现在我试图获取特定年份中逮捕的比例例如多
检查数组中的值

我需要检查数组以查看用户输入是否已存在并显示一条消息以确定用户输入是否存在第一部分正在工作但我尝试创建一种单词检查方法我不确定我是否走在正确的道路上干杯 import java util Scanner public class
如何检测文本文档之间的重复项并返回重复项的相似度？

我正在编写一个爬虫来从某个网站获取内容但是内容可以重复我想要以避免这种情况所以我需要一个函数可以在两个文本之间返回相同的百分比来检测两个可能重复的内容示例文本 1 我正在编写一个爬虫文本2 我正在编写一些文本爬虫来获取比较函数
为什么同一类的对象可以访问彼此的私有数据？

为什么同一类的对象可以访问彼此的私有数据 class TrivialClass public TrivialClass const std string data mData data const std string getData co
React Navigator StackNavigator：从同一场景调用两次时 goBack 不起作用

假设我想实现一个具有目录结构的文件浏览器我创建了一个 React Native 组件它列出了特定文件夹的文件和目录当我单击一个文件夹时我希望进入新文件夹并列出其文件和文件夹显然我希望能够使用相同的 React 组件来渲染不同的文
使用嵌套属性的 Rails 中多对多关系的下拉菜单

我通过多对多关联有三个表超市产品和供应每个超市可以存放多种产品每种产品可以在多个超市销售该关联是通过供应模型建立的超级市场 class Supermarket lt ActiveRecord Base attr accessib
FTP 传入监控（上传时）

我们有大约 100 个用户通过 FTP 登录并上传文件我们的在线系统 PHP 应该显示刚刚上传的项目我不想继续检查所有不同的 FTP 文件夹来检查新文件在不降低服务器速度的情况下使用 PHP 检查新文件的最佳方法是什么所有用户都在
iOS6 在非越狱设备上切换 WiFi

我正在开发一个内部 iOS 应用程序不适用于苹果商店所以我很乐意使用私有 API 并且我希望能够以编程方式打开或关闭 wifi 我想要这样做的原因是对于某些 WiFi 路由器每当互联网连接中断时 iPad 就无法恢复 WiFi 不过
为什么下面的结果是零？ [复制]

这个问题在这里已经有答案了下面的每个 print 语句都会产生 0 0 var c Double 0 0 let a Int 1 let b Int 5 print a b Double a b 100 c Double a b 100
为什么 Ruby on Rails 弃用脚手架方法

我正在学习 Ruby on Rails 所以我相信我迟早会发现这一点为什么在 Rails 版本 2 中不推荐使用脚手架方法脚手架方法违背了脚手架的精神脚手架的目的是为您提供一个起点您应该在此基础上根据自己的需求进行构建通过动态生成
缩小的单个捆绑包与通过 http/2 的多个文件

对于 CSS 和 JS 捆绑一般建议是什么是将所有内容捆绑到一个文件中更好还是提供多个文件更好我个人认为多个文件更好尤其是使用 http 2 但是捆绑有很好的理由当所有内容都在一个文件中时缩小和 gzip 会产生更好的结果因
Ruby on Rails 中的“分配”有什么作用？

我目前正在尝试学习Ruby on Rails和测试框架RSpec 什么是assigns在这个 RSpec 测试中做什么 describe GET index do it assigns all mymodel as mymodel do m
线程中的临界区是什么？

请有人能举例简单地告诉我临界区的含义是什么用简单的语言 A 临界区 http en wikipedia org wiki Critical section是需要在没有外部干扰的情况下执行的代码部分即没有其他线程可能影响该部分内的中间
TypeScript 中的私有静态属性

如果我执行下面类似的操作如何从类中访问该属性 class Person private static name string console log Person name 不是应该无法访问吗这应该是一个错误但事实并非如此根据规范第
如何创建分支？

如何在SVN中创建分支使用创建一个新分支svn copy命令如下 svn copy svn ssh host example com repos project trunk svn ssh host example com repos p
派生类中类模板的部分特化会影响基类

我有一个元功能 struct METAFUNCION template
在 WooCommerce 管理订单列表中添加自定义操作按钮

我已关注本说明 https fernandoacosta net blog 2015 06 07 woocommerce adicionar novo status de pedido 为我的 WooCommerce 订单添加自定义订单状态
如何修复应用程序构造函数中的异常

我是 Javafx 新手我刚刚下载了 JDK 12 并遵循了教程它已经工作但对我不起作用我正在使用模块来要求 javafx controls 这是代码在我的主课中我在SOFlow中尝试了很多解决方案但没有结果我尝试了 1 将 p
在 C# 中序列化和存储对象的最简单方法？

我正在寻找一个简单的解决方案来序列化和存储包含配置应用程序状态和数据的对象它是一个简单的应用程序数据不多速度不是问题我希望它正在进行中我希望它在文本编辑器中比在 xml 中更容易编辑我找不到任何可以在进程中处理它的 net 文
如何使用Beautifulsoup4等待网站返回数据

我使用 beautifulsoup4 编写了一个脚本该脚本基本上从网页上的表格中获取密码列表问题是我的 python 脚本不会等待网页返回的内容并且会中断或显示列表索引超出范围代码如下 ssl lab url https www

如何使用Beautifulsoup4等待网站返回数据

如何使用Beautifulsoup4等待网站返回数据 的相关文章

随机推荐

热门标签

如何使用Beautifulsoup4等待网站返回数据的相关文章