使用 Python BeautifulSoup 单击链接

2024-03-01

所以我是 Python 新手（我来自 PHP/JavaScript 背景），但我只是想编写一个快速脚本来抓取网站和所有子页面以查找所有内容a标签有href属性，数一下有多少个，然后单击链接。我可以计算所有链接，但我不知道如何“单击”链接然后返回响应代码。

from bs4 import BeautifulSoup
import urllib2
import re

def getLinks(url):
    html_page = urllib2.urlopen(url)
    soup = BeautifulSoup(html_page, "html.parser")
    links = []

    for link in soup.findAll('a', attrs={'href': re.compile("^http://")}):
        links.append(link.get('href'))
    return links

anchors = getLinks("http://madisonmemorial.org/")
# Click on links and return responses
countMe = len(anchors)
for anchor in anchors:
    i = getLinks(anchor)
    countMe += len(i)
    # Click on links and return responses

print countMe

这是否有可能BeautifulSoup?
另外，我并不是在寻找确切的代码，我真正在寻找的只是函数调用使用的正确方向的点或类似的东西。谢谢！

Urlopen是适合您目的的更好解决方案，但如果您需要单击并与网络上的元素进行交互，我建议使用selenium webdriver。有 Java、Python 和其他语言的实现。我已经将它与 Java 和 Python 一起使用，效果非常好。您可以无头运行它，这样浏览器实际上不会打开。

pip install selenium

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Python BeautifulSoup 单击链接的相关文章

Python从int到string的快速转换

我正在用 python 求解大量阶乘并发现当我完成计算阶乘时需要相同的时间才能转换为字符串以保存到文件中我试图找到一种将 int 转换为字符串的快速方法我将举一个计算和 int 转换时间的例子我正在使用通用的 a str a 但感
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
python是带有字符串的运算符行为[重复]

这个问题在这里已经有答案了我无法理解以下行为我正在创建 2 个字符串并使用 is 运算符来比较它对于第一种情况它的工作方式有所不同对于第二种情况它按预期工作当我使用逗号或空格时它显示是什么原因False与比较is当没有使用
PySide6.1 与 matplotlib 3.4 不兼容

当我只安装PySide6时 GUI程序运行良好但是一旦我安装了matplotlib及其依赖包包括pyqt5 则GUI程序将无法运行并输出以下错误消息 This application failed to start because no
为什么我无法在 Mac OS X Terminal.app 上的 Python 解释器中显示 unicode 字符？

如果我尝试粘贴 unicode 字符例如中间的点在我的 python 解释器中它什么也不做我在 Mac OS X 上使用 Terminal app 当我只是在 bash 中时我没有遇到任何问题但在解释器中 python Pytho
`list()` 被认为是一个函数吗？

list显然是内置类型 https docs python org 3 library stdtypes html list在Python中我看到底下有一条评论this https stackoverflow com a 53645813
在Python中计算内存碎片

我有一个长时间运行的进程不断分配和释放对象尽管正在释放对象但 RSS 内存使用量会随着时间的推移而增加如何计算发生了多少碎片一种可能性是计算 RSS sum of allocations 并将其作为指标即便如此我该如何计算分母
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
如何在单元测试中使用 JSON 发送请求

我的 Flask 应用程序中有在请求中使用 JSON 的代码我可以像这样获取 JSON 对象 Request request get json 这一直工作得很好但是我正在尝试使用 Python 的 unittest 模块创建单元测试但
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro
长/宽数据到宽/长

我有一个数据框如下所示 import pandas as pd d decil 1 decil 1 decil 2 decil 2 decil 3 decil 3 decil kommune AA BB AA BB AA BB 2010

随机推荐

从 DDS 中删除读取主题

我在订阅数据时遇到问题使用java平台当订阅者订阅某个主题时必须从 DDS 中删除该订阅的数据但就我而言每当我订阅数据时相同的数据就会被订阅多次数据不会从 DDS 中删除我尝试过 QoS 但不知道如何使用它请建议我如何从
将数组分为 2 个子数组并检查乘法是否相等

我正在为 Java 考试进行练习我今天面临的问题之一是给定一个包含 n 个数字的数组我需要检查是否有 2 个子数组不必相等它们的乘法相等如果有将返回 true 否则返回 false 例如如果数组是 2 15 3 4 2 5
NG-使用过滤器重复与当前日期进行比较？

好的我有一个包含日期列表的对象我像这样遍历它
在 Keras/Tensorflow 自定义损失函数中使用额外的“可训练”变量

我知道如何在 Keras 中使用附加输入而不是标准输入编写自定义损失函数y true y pred配对见下文我的问题是输入损失函数可训练的变量其中一些是损失梯度的一部分因此应该更新我的解决方法是输入网络的虚拟输入NXV大小
从我的控制器而不是从我的 asp.net mvc Web 应用程序中的视图调用 JSON API

我需要从我的 asp net mvc Web 应用程序调用 BPM 引擎的 JSON API 对 BPM 的 API 调用构造如下 http localhost 8080 jw web json workflow process list
如何防止XDocument添加XML版本和编码信息

尽管在以下代码中使用了 SaveOptions DisableFormatting 选项 XDocument xmlDoc XDocument Load FileManager SourceFile string element campa
将 Keras 模型的输出重新缩放回原始比例

我是神经网络的新手只是免责声明我有一个基于 8 个特征预测混凝土强度的回归问题我首先做的是使用最小最大标准化重新调整数据 Normalize data between 0 and 1 from sklearn preprocessi
逻辑地址和物理地址之间的区别？

我正在阅读操作系统概念现在正在读第 8 章不过我可以做一些澄清或者保证我的理解是正确的逻辑地址根据书中所述逻辑地址是由CPU生成的这到底是什么意思在执行生成的地址系统中我假设当为程序编译代码时该程序具有no知道代码将
在C#中有效调整图像的对比度

在 C 中是否有一种有效的方法来调整图像的对比度我见过本文 http www gutgames com post Adjusting Contrast of an Image in C aspx它提倡进行逐像素操作不快我已经在一些地方
通过 Wcf 序列化 Linq2Sql - 错误或误解？

使用 Linq2Sql 作为 Wcf 服务的驱动程序让我们从下往上在底部我们有调用 Linq2Sql 的方法 public virtual void UpdateCmsDealer CmsDealer currentCmsDealer
正则表达式可选组

我正在使用这个正则表达式 a z a z d a z a z d d 13 匹配这样的字符串 SH 6208069141055 BC000388 20110412101855 分为 4 组 SH 6208069141055 BC000388
如何查看 gstreamer 调试输出？

如何查看 GST CAT INFO GST DEBUG 等函数的输出我是否需要自己使用调试级别设置来编译 gstreamer 还是可以在应用程序级别完成可以使用 GST DEBUG 环境变量在 stderr 中打印调试消息如果 gst
.NET：打开嵌入资源文件中的文件

如何打开嵌入资源文件中的文件例如硬盘上的文件具有绝对路径假设您有test xml文件嵌入到程序集中你可以使用获取清单资源流 http msdn microsoft com en us library system reflectio
如何在 OpenAPI (Swagger) 中定义枚举？

有谁知道如何定义可能enumOpenAPI 2 0 定义中的值以便它们显示在 Swagger UI 的模型选项卡中示例在这里 https petstore swagger io pet addPet有一个枚举选项status财产如何
阻止应用程序[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我需要制作一个应用程序来阻止手机上的
我可以用 Python 编写屏幕截图吗

是否有任何库可用于在 Python 中编写屏幕截图可以做成跨平台的吗可以捕捉到视频吗如果可以实时进行吗或者说可以直接生成Flash电影屏幕捕获可以通过以下方式完成PIL 得益于 ImageGrab 模块 http www pyt
Firebase 函数 - https onRequest“HTTP 错误：400，请求有错误”

我的 firebase 功能遇到一些重大问题我正在尝试创建一个https请求以便我可以将数据发送到 Firebase 我有一个超级简单的代码只是为了测试它会导致错误这是我的代码这段代码应该没有问题 exports fetchPost
Symfony 表单，错误冒泡

我遇到了表单错误冒泡的问题我的表单中的一个字段定义如下 formBuilder gt add title text required gt true error bubbling gt false 我想向该字段添加一个这样的验证器 Ass
如何在 Windows 10 预览版中安装应用程序请求路由 ARR 3.0？

当我尝试安装应用程序请求路由时出现错误安装 Microsoft 应用程序请求路由 3 0 需要 IIS 版本 7 0 或更高版本 Windows 10有IIS 10 0 所以应该是可以的但我猜微软还没有修复版本检查有没有可用的解决方
使用 Python BeautifulSoup 单击链接

所以我是 Python 新手我来自 PHP JavaScript 背景但我只是想编写一个快速脚本来抓取网站和所有子页面以查找所有内容a标签有href属性数一下有多少个然后单击链接我可以计算所有链接但我不知道如何单击链接然后返

使用 Python BeautifulSoup 单击链接

使用 Python BeautifulSoup 单击链接 的相关文章

随机推荐

热门标签

使用 Python BeautifulSoup 单击链接的相关文章