为什么这种提取在示例上工作正常，但在真实网址上却不起作用？

2024-01-19

我正在尝试提取内容href在班上a，里面是<td class="DataZone">。它适用于下面的示例

from bs4 import BeautifulSoup

text = '''
<td class="DataZone"><div id="Content_CA_DI_0_DataZone">
<div style="font:bold 8pt 'Courier New';letter-spacing:-1px">
<a href="Browse-A">A</a> <a href="Browse-B">B</a> <a href="Browse-C">C</a> <a href="Browse-D">D</a> 
</div>
</div></td>
'''

soup = BeautifulSoup(text, 'html.parser')

[tag.attrs['href'] for tag in soup.select('td.DataZone a')]

，结果是['Browse-A', 'Browse-B', 'Browse-C', 'Browse-D']。当我把它应用到真实的时候url https://www.thefreedictionary.com/，不幸的是它不起作用

import requests
session = requests.Session()
from bs4 import BeautifulSoup

url = 'https://www.thefreedictionary.com'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:78.0) Gecko/20100101 Firefox/78.0'}
r = session.get(url, headers = headers) 
soup = BeautifulSoup(r.content, 'html.parser')

[tag.attrs['href'] for tag in soup.select('td.DataZone a')]

它返回一个错误

---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-12-0a06dde2d97b> in <module>
      4 soup = BeautifulSoup(r.content, 'html.parser')
      5 
----> 6 [tag.attrs['href'] for tag in soup.select('td.DataZone a')]

<ipython-input-12-0a06dde2d97b> in <listcomp>(.0)
      4 soup = BeautifulSoup(r.content, 'html.parser')
      5 
----> 6 [tag.attrs['href'] for tag in soup.select('td.DataZone a')]

KeyError: 'href'

显然，url的来源与示例类似

您能解释一下为什么会出现这样的错误吗？

Update:这对我来说很奇怪[x['href'] for x in soup.select('td.DataZone a[href^=Browse]')]工作正常，但不是[x['href'] for x in soup.select('td.DataZone a')]。还请您详细说明一下这个问题。

你会收到错误，因为有很多td.Datazone标签，其中一个标签内有<a>Google+</a>- 没有href.

您可以通过以下方式选择td.DataZone a[href]仅选择<a>标签有href属性：

print( [tag.attrs['href'] for tag in soup.select('td.DataZone a[href]')] )

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

beautifulsoup

为什么这种提取在示例上工作正常，但在真实网址上却不起作用？的相关文章

让 Bazel 使用 Python3 运行（语法错误）

我正在尝试使用 Bazel 运行此代码 https github com google in silico labeling https github com google in silico labeling 这是关联的 Bazel BU
尽管获得了许可，Discord 机器人仍无法提及所有人

这是发送消息函数 async def sendMessage color title value should delete True channel embed discord Embed color color embed add fi
如何创建始终有效的导入？

我正在努力在我的一个项目中建立一个工作结构问题是我有一个像这样的结构的主包和子包我遗漏了所有不必要的文件 code py mypackage init py mypackage work py mypackage utils py u
在Python 3中将二进制字符串转换为字节数组

尽管有很多相关的问题但我找不到任何符合我的问题的问题我想更改二进制字符串例如 0110100001101001 转换成字节数组同一个例子 b hi 我试过这个 bytes int i for i in 011010000110100
为什么 python 对于共享锁抛出“multiprocessing.managers.RemoteError”？

我正在使用 python 3 6 7 和 Ubuntu 18 04 运行以下脚本后每个进程都有自己的共享锁 from multiprocessing import Process Manager def foo l1 with l1 pr
Asyncio 中的无限循环或“递归”

我是 Python3 asyncio 的新手我有一个函数可以不断地从 websocket 连接检索消息我想知道我是否应该使用while True循环或asyncio ensure future以递归方式哪个是首选还是不重要 Examp
如何跨多个文本文件查找字典中键的频率？

我应该计算文档 individual articles 中所有文件中字典 d 的所有键值的频率这里文档 individual articles 大约有20000个txt文件文件名为1 2 3 4 例如假设 d Britain 5 7
在 python 中指定文件夹位置时使用 / 和 \\ 有什么区别？

我在 Windows 10 上使用 python v3 6 当指定字符串来表示目录位置时下面的 2 种方法有什么区别 folder location C Users username Dropbox Inv folder location
ValueError：超出整数字符串转换的限制（4300）

gt gt gt import sys gt gt gt sys set int max str digits 4300 Illustrative this is the default gt gt gt int 2 5432 Traceb
Python subprocess.Popen 结果存储在变量中

我看过关于此的各种其他帖子但不幸的是我仍然无法弄清楚如果我做这样的事情 temp subprocess Popen whoami shell True stdout subprocess PIPE out temp communicat
在 Django 中定义视图和 url。为什么调用函数时不使用括号？

我已经在经历 Python速成课程目前正在进行 Django Web应用程序项目学习日志阶段有些东西与我已经学到的相矛盾 views py file from django shortcuts import render def i
Python3 查找 2 个列表中有多少个差异才能相等

假设我们有 2 个列表 always具有相同的长度和always包含字符串 list1 sot sot ts gg gg gg list2 gg gg gg gg gg sot 我们需要找到其中有多少项list2应该改变以便它等于lis
将此 MATLAB 代码转换为 Python 时我做错了什么？

我正在努力将生成波形的 MATLAB 代码转换为 Python 就上下文而言这是原子力显微镜带激发响应的模拟与代码错误无关在 MATLAB 中从 r vec 生成的图形与我在 Python 中生成的图形不同我是否正确地将 MATLA
在 python3.6 上 pip 安装 Django

如果我跑pip install Django I get 已满足的要求 Django in usr local lib python2 7 dist packages 我想改用 python3 6 它已经安装在 usr bin python
我正在尝试为 Antlr4 Python3.g4 语法文件生成解析树，以解析 python3 代码

我正在使用 ANTLR4 并尝试为我拥有的 python 文件生成解析树我使用了 ANTLR4 文档中的语法文件 python3 g4 我安装了antlr4 python3 runtime 并且运行了以下命令 antlr4 Dlangua
将 csv 文件按多列拆分为 panda 数据框

我有一个包含多列的 tsv 文件有 10 多列但对我来说重要的列是名称为 user name shift id url id 的列我想创建一个数据框首先根据用户名分隔整个 csv 文件即只有具有相同用户名的行才会分组在一起从该块
Tensorflow ctc_loss_calculator：找不到有效路径

当运行我的神经网络双向 LSTM 进行音频识别时我使用连接主义时间分类 CTC 但在某些时候训练网络时我几乎每批都会收到来自 Tensorflow 的警告 W tensorflow core util ctc ctc loss cal
每次运行神经网络代码时结果都会改变

我通过运行此链接中提供的代码得到了结果神经网络预测多个变量的值 https stackoverflow com questions 58071836 neural network predicting values of multiple
如果新文件不存在则写入新文件，如果存在则追加到文件

我有一个程序可以写入用户的highscore到一个文本文件该文件由用户选择时命名playername 如果具有该特定用户名的文件已经存在那么程序应该附加到该文件以便您可以看到多个highscore 如果具有该用户名的文件不存在例如
SQLAlchemy 如何使用“完全模块限定路径”？

我正在为一个使用 sqlalchemy 的项目做出贡献该项目有一个 model py 文件其中定义了所有类例如Foobar BASE 现在我已经创建了another模块 mymodel py 我需要扩展其中一些类例如在 mymo

随机推荐

使用 RelaxNG 进行 XML 模式验证

您可以推荐哪些 XML 验证工具来提高性能和准确性而这两个工具对于我们的系统来说都是一个关键问题我们有以下要求 It is notxmllint 见下文支持RelaxNG 可以轻松地与 Perl 集成这是可选的但它会很好为什么不
如何获得准确的中心点？

如何使用 OpenCV 霍夫圆变换获得准确的中心点我需要更多精确的 x y 坐标小数位准确地说我的意思是这样的我用 matlab 得到了这些中心坐标 x107 775526315904 y112 963480232638 x469
从 GitHub 存储库下载单个文件夹或目录

如何从 GitHub 上托管的远程 Git 存储库仅下载特定文件夹或目录假设示例 GitHub 存储库位于此处 email protected cdn cgi l email protection foobar Test git 其目录结
如何在 Oracle PL/SQL 中动态获取 OBJECT 或 ROWTYPE 的值（反射）？

我正在尝试采用 ROWTYPE RECORD 或 OBJECT 类型并将其动态转换为单个字符串表示形式我想动态地执行此操作 Update 感谢 Justin Cave 的反馈对 OBJECT 类型执行此操作现在可以正常工作示例数据 I
动态更改静态单元格上的节标题文本

我有一个 UITableViewController 其表视图具有静态单元格在故事板中定义我的表格视图有两个部分第一个部分有两个单元第二个部分有三个单元第二部分的标题中也有文本我想做的是当用户点击第一部分中的第一个或第二个单元
使用 OAuth 与 CakePHP 2.3 进行身份验证

我有一个 CakePHP 应用程序我希望我的用户能够使用 OAuth 登录我似乎 OAuth 对话工作正常因为我正在从其末尾获取用户信息并且可以将令牌保存到我的users表罚款我的问题可能是一个愚蠢的问题但我正在尝试弄清楚何时需
结账后使用 Mongoose 将 Stripe 客户 ID 保存在我的数据库中

我使用客户门户设置了 Stripe Checkout 并且希望能够检索客户 ID 以让用户访问他的门户为了我想检索客户 ID 将其保存在我的数据库中用户已登录结账表单效果很好重定向也很好但我无法检索客户 ID 当我console
如果我希望 PyTorch 的模型可由 OpenCV dnn 模块加载，我应该如何保存它

我通过 PyTorch 训练一个简单的分类模型并通过 opencv3 3 加载它但它抛出异常并说 OpenCV 错误 readObject 文件中未实现功能特性不支持的 Lua 类型 home ramsus Qt 3rdLibs op
如何设置 Steeltoe 动态日志记录与第 3 方记录器一起使用 Serilog？

我在 Pivotal Cloud Foundry 中有 ASP NET Core 2 1 应用程序我们希望能够在其中动态配置日志记录级别作为记录器提供商我们使用 Serilog Steeltoe 动态记录是否可以与第 3 方记录器一起
mmap 标志 MAP_UNINITIALIZED 未定义

mmap 文档提到了标志 MAP UNINITIALIZED 但该标志似乎没有定义在 Centos7 和 Xenial 上尝试过两个发行版都没有定义该标志sys mman h正如所指控的那样令人惊讶的是互联网似乎并没有意识到这一点
如何在我的 Spring Boot 应用程序中从 AWS 访问环境变量

我正在开发部署在 AWS 上的应用程序我已经设置了数据库配置 URL UserName Password 在 AWS 环境属性中现在我如何在我的 Spring Boot 应用程序中访问这些变量 My application proper
使用 php 在 gzopen 中解压缩大型 gzip 文件的合适缓冲区大小是多少？

function uncompress srcName dstName sfp gzopen srcName rb dstName str replace gz dstName fp fopen dstName w fseek FileOp
如何使用 jQuery 查找元素距顶部的垂直距离（以 px 为单位）

如何使用 javascript jQuery 找到从页面顶部到 DOM 中元素所在位置的垂直距离我有类似的东西 ul li one li li one li li one li li one li li class test one li
Dart Polymer 模板中的数字 for 循环

怎样写一个数字for在聚合物自定义元素模板中循环我的意思是像
CORS 预检请求有哪些安全优势？

我一直在开发一个经典的 SPA 前端应用程序就位于其中app example com当 API 继续存在时api example com 因此需要使用 CORS 请求已设置服务器返回 CORS 标头工作正常每当 AJAX 请求不简单
arrow-> 运算符重载在 C++ 内部如何工作？

我了解正常的运算符重载编译器可以将它们直接翻译为方法调用我不太清楚 gt 运算符我正在编写我的第一个自定义迭代器我觉得需要 gt 运算符我看了一下stl源代码并实现了我自己的 MyClass MyClassIterator ope
调试新的 Chrome 打包应用程序

我正在 Chrome 24 中使用新型打包应用程序但我没有看到任何方法可以调出开发人员工具来进行调试推荐的调试策略是什么去这里 chrome inspect 找到你想要的页面
如何将图像背景添加到 btn-default twitter-bootstrap 按钮？

我尝试使用现有的类设计一个 bootstrap v3 3 5 按钮btn 默认值下面是我所做的代码示例
如何使用 boost::program_options 创建选项别名？

我希望能够创建选项别名boost program options将它们的参数存储在相同的键标签下我的软件的架构根据值使用不同的专用选项解析器argv 1 然而有些选项是共享的比如我的选项 inputs inputOptions ad
为什么这种提取在示例上工作正常，但在真实网址上却不起作用？

我正在尝试提取内容href在班上a 里面是 td class DataZone 它适用于下面的示例 from bs4 import BeautifulSoup text td class DataZone div div style fon

为什么这种提取在示例上工作正常，但在真实网址上却不起作用？

为什么这种提取在示例上工作正常，但在真实网址上却不起作用？ 的相关文章

随机推荐

热门标签

为什么这种提取在示例上工作正常，但在真实网址上却不起作用？的相关文章