无法在 BeautifulSoup 中获得正确的链接

2024-07-01

我正在尝试解析一些 HTML，并且想提取与特定模式匹配的链接。我正在使用find使用正则表达式的方法，但它没有给我正确的链接。这是我的片段。有人可以告诉我我做错了什么吗？

from BeautifulSoup import BeautifulSoup
import re

html = """
<div class="entry">
    <a target="_blank" href="http://www.rottentomatoes.com/m/diary_of_a_wimpy_kid/">RT</a>
    <a target="_blank" href="http://www.imdb.com/video/imdb/vi2496267289/">Trailer</a> &ndash; 
    <a target="_blank" href="http://www.imdb.com/title/tt1196141/">IMDB</a> &ndash; 
</div>
"""

soup = BeautifulSoup(html)
print soup.find('a', href = re.compile(r".*title/tt.*"))['href']

我应该得到第二个链接，但 BS 总是返回第一个链接。这href第一个链接的甚至与我的正则表达式不匹配，那么为什么它会返回它？

Thanks.

find只返回第一个<a>标签。你要findAll http://www.crummy.com/software/BeautifulSoup/documentation.html#The%20basic%20find%20method:%20findAll%28name,%20attrs,%20recursive,%20text,%20limit,%20**kwargs%29.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

无法在 BeautifulSoup 中获得正确的链接的相关文章

Python，将 mongodump 的 bson 输出转换为 json 对象数组（字典）

我已经使用转储了 mongodb 集合mongodump命令输出是一个转储目录其中包含以下文件 dump coll bson coll metadata json 如何将导出的文件打开到在 python 中工作的字典数组中我尝试了以下
多处理冻结计算机

我通过使用多处理提高了执行时间但我不确定 PC 的行为是否正确它会冻结系统直到所有进程完成我使用的是 Windows 7 和 Python 2 7 也许我做错了这就是我所做的 def do big calculation sub
Flask - 在请求之间将值存储在内存中

我有一个单页应用程序前端是 Angularjs 后端是 Flask 它允许用户上传文件 xlsx csv 然后交互式地分析查询文件本质上用户在第一次上传时将文件加载到内存中然后后续的 ajax 调用将访问内存中的该文件我不确定如
Pytorch不支持one-hot向量？

我对 Pytorch 如何处理 one hot 向量感到非常困惑在这个tutorial https pytorch org tutorials beginner blitz cifar10 tutorial html 神经网络将生成一个
使用 Numpy 对多维数组进行切片/索引

我有 3 个 4x4 数组矩阵使用以下命令创建 arr np linspace 1 48 48 reshape 3 4 4 矩阵如下所示 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2
PyCharm 项目文件消失了

我当时正在做一个 python 项目JetBrains PyCharm 2016 2 https www jetbrains com pycharm 在 Lubuntu 上突然之间我的所有项目文件都从 IDE 中消失了我尝试了以下方法
如何在pytorch中使用多个GPU？

我使用此命令来使用 GPU device torch device cuda 0 if torch cuda is available else cpu 但是我想使用两个 GPUjupyter 像这样 device torch devic
为 scipy 安装 BLAS 和 LAPACK 最简单的方法是什么？

我想运行一个别人已经准备好的程序其中包括 scipy 我尝试安装 scipy pip install scipy 但这给了我一个很长的错误我知道 Anaconda 和 Canopy 有很多方法但我认为这些方法还有很长的路要走我想走近
Python：控制超时长度

我在脚本中运行了类似于以下的代码 try s ftplib FTP xxx xxx xxx xxx username password except print Could not contact FTP serer sys exit 如果
关闭Python线程以防止内存泄漏

如何关闭 Python 线程以确保线程内内存中的所有内容都从内存中清除目前我有一个通过以下方式加入的线程列表 for t in threadlist t join 5 这些线程最初是通过循环传递给每个线程的参数列表来创建的myfunc它
为什么“导入*”不好？

建议不要使用import 在Python中谁能分享一下原因以便我下次可以避免这样做因为它将很多东西放入您的名称空间中可能会隐藏以前导入的其他对象而您不会知道它因为您不确切知道导入了什么并且无法轻松找到某个东西是从哪个模块导入的
SQLalchemy“load_only”不只加载指定的列

我正在尝试从带有 sqlalchemy 的表中选择列的子集load only功能不幸的是它似乎不仅仅返回函数调用中指定的列具体来说它似乎还获取主键在我的例子中是一个 auto increment id 字段一个简单的例子如果
为什么 a.insert(0,0) 比 a[0:0]=[0] 慢很多？

使用列表的insert函数比使用切片分配实现相同效果要慢得多 gt python m timeit n 100000 s a a insert 0 0 100000 loops best of 5 19 2 usec per loop gt
如何在调试 C 程序时将 gdb 值转换为 python 数字对象

我在调试 C 程序时使用 python2 6 的 gdb 模块并希望根据实例的 Type 将 gdb Value 实例转换为 python 数字对象变量例如把我的C程序SomeStruct gt some float val 1 6
任何方法来跟踪Python中的最后5个数据点

所以我有一个包含多个数字的数组随着我的脚本运行越来越多的数字被附加到该数组中但是我对所有数字并不感兴趣而只想跟踪最后 5 个数字目前我只是将所有数字存储在数组中然而这个数组变得非常大并且充满了不必要的信息我考虑过创建一个
Apache24-x86-VC9 与 mod_wsgi 说，“AH00419：master_main：创建子进程失败。正在退出。”并且不会启动

我正在尝试在我的 Windows 版本的 Apache24 上安装 WSGI 功能当我尝试启动该服务时我在 error log 中收到以下内容 Wed Dec 23 10 24 33 404057 2015 ssl warn pid 2
一次将多个函数应用于 Pandas groupby 对象

已经提出了这个问题的变体参见这个问题 https stackoverflow com questions 40532024 pandas apply multiple functions of multiple columns to gr
Matplotlib 中的月份定位器

我有这样的情节我想更改 12 个位置的刻度以这种格式指示相应的月份 Jan Feb Mar 当我使用 MonthLocator 函数时刻度线从图中消失 ax plt gca ax set xlim 0 365 ax xaxis set
Pandas：获取重复索引

给定一个数据帧我想获取重复的索引这些索引在列中没有重复的值并查看哪些值不同具体来说我有这个数据框 import pandas as pd wget https www dropbox com s vmimze2g4lt4ud3 a
将函数应用于数据帧的每一行

下面有什么更优雅的实现方式我想应用一个函数 my function到数据帧其中数据帧的每一行都包含函数的参数然后我想将函数的输出写回数据帧行 results pd DataFrame for row in input panel it

随机推荐

无法从 GetSystemTime() 获取毫秒

我正在尝试打印秒和毫秒分辨率计时我正在使用GetSystemTime 这是我的代码 GetSystemTime datetime RETAILMSG 1 T Time After Data Sent to USB d d r n date
如何在Windows上安装PyGI（Python Gobject Introspection）？

安装Python解释器 http python org ftp python 2 7 2 python 2 7 2 msi http python org ftp python 2 7 2 python 2 7 2 msi and http
pandas 支持 DataFrame 的哪些绘图后端？

pandas 确实允许与第三方一起绘图绘制后端 https pandas pydata org pandas docs stable development extending html plotting backends 我知道matpl
CoreGraphics 和 CoreAnimation 有什么不同？

我正在使用 coregraphics 开发 iphone 游戏但速度很慢我无法玩我的游戏所以我用谷歌搜索了很多在谷歌搜索过程中我发现了以下内容 CoreGraphics CoreAnimation OpenGL ES CALay
查询每组前 N 个代码适用于 MySQL，但适用于 MariaDB，结果不同

我有一个 SQL 查询它提取每组的最新 3 条记录 MySQL 的查询结果与 MariaDB 不同该查询在下面的sqlfiddle中实现 http sqlfiddle com 9 c09fe 2 http sqlfiddle com 9
应用程序大小限制和查找应用程序的大小

好吧我读过无数地方说应用程序大小限制是 20 MB 有些说是 50 MB 是哪一个更重要的是我当前的应用程序在管理器的存档部分中的估计应用程序商店大小为 106 1mb 然而当我将它分发到一个临时文件时它会以 ipa 的形式出
使用 FileDialog 打开工作簿并在 Excel VBA 中对其进行操作

我正在学习如何使用 Excel 宏我发现了这段代码 Dim fd As Office FileDialog Set fd Application FileDialog msoFileDialogFilePicker With fd All
使用 swift 3.0 编译的模块无法在 Swift 3.0.1 中导入

我将 Xcode 升级到 8 1 GM 现在收到以下 SwiftyJSON 错误其他导入的框架似乎也有效有没有办法强制它在 Swift 3 中工作直到 SwiftyJSON 升级他们的框架我使用 Carthage 导入更新框架我
应用内购买仍在等待审核

当我们开发新版本的应用程序时我们提交了一些应用内购买的新版本这些内容与旧版本相同但属于消耗品因此您可以多次购买并且还支持折扣它们被返回的原因是请与二进制文件一起提交因此我们在上传新应用程序版本的二进制文件后再次提交了它们
jQuery 可以根据高度选择 div 吗？还是教程错了？

我正在尝试选择一个div基于其高度如本教程所示 jQuery 选择 http tutorials jenkov com jquery selection html 我无法让它工作 jsbin 示例 http jsbin com eriqi
向量到元素之间差异矩阵

给定一个向量 vec lt 1 5 创建矩阵的有效方法是什么其中向量分量之间的差异显示在矩阵差异矩阵中如果您愿意的话显然我可以使用两个 for 循环来完成此操作但我需要使用更大的数据集来完成此操作我试图为这个矩阵创建一个术语
列出 AD 用户的组成员身份

使用以下 Powershell 代码片段我获取当前用户的组成员身份的名称 groups System Security Principal WindowsIdentity GetCurrent Groups foreach i in gr
当字符串值包含逗号时，JSON.parse 在 Safari 中失败

我正在构建一个购物车当按下购买按钮时 Web 服务会返回一个 JSON 输出然后我将其作为字符串保存到 Javascript cookie 中 Web 服务的典型返回可能是 d 58658 id 58658 qty 1 single
在Python中根据等级和花色对一手牌进行排序

我正打算制作一款纸牌游戏目前我正在着手开发它我感到困惑的是按牌的等级对手中的牌进行排序然后按花色排序以及如何减少重复目前我可能可以创建一个 for 循环来组织卡片然后为每种可能性设置 52 个不同的 if 但我想知道它们是否
当叠加两个相同大小的图像时，其中一个会偏移

我正在尝试通过将一个图像叠加在另一个图像上来创建图像该代码有效但我叠加的图像似乎略有拉伸我不知道为什么所以代码只是创建一个空白的红色 24x24 矩形然后我覆盖一个 24x24 png 文件如下所示我期待的是这样的但我实际上
dte.Solution.SolutionBuild.StartupProjects 更改时是否会触发事件？

我正在构建一个 Visual Studio 2010 插件供我公司内部使用我想自定义主窗口标题以显示当前启动项目的名称我可以使用以下代码设置主窗口的标题 DTE d GlobalClass dte2 as DTE IntPtr hWnd
WPF ICollectionView 过滤

我写了一个代码过滤项目在组合框中我的问题是你会怎么做我认为这种带有反射的解决方案可能非常有效slow ICollectionView view CollectionViewSource GetDefaultView newValue
如何将此查询编写为完整联接而不是联合左/右联接？

这是代码显示输入和所需的输出基本上我正在尝试自我加入以将经纪人声明的结果与我的内部记录相匹配所以左边的列是经纪人的列表右边是我的列表如果经纪人有仓位而我没有则右侧为 NULL 如果我有仓位而经纪商没有则左侧为 NULL
如何在知道其十进制值的情况下找出菜单中项目的字符串 ID？

我正在使用 android support v7 appcompat 在一个活动中我想在操作栏中显示后退按钮我愿意 public class News extends ActionBarActivity Override protect
无法在 BeautifulSoup 中获得正确的链接

我正在尝试解析一些 HTML 并且想提取与特定模式匹配的链接我正在使用find使用正则表达式的方法但它没有给我正确的链接这是我的片段有人可以告诉我我做错了什么吗 from BeautifulSoup import Beautiful

无法在 BeautifulSoup 中获得正确的链接

无法在 BeautifulSoup 中获得正确的链接 的相关文章

随机推荐

热门标签

无法在 BeautifulSoup 中获得正确的链接的相关文章