使用 bs4 查找特定链接文本

2024-02-28

我正在尝试抓取一个网站并找到提要的所有标题。我在获取文本时遇到问题a我需要的标签。这是 html 的示例。

<td class="m" id="b1"><a href="/QSYcfT" id="c1" target="_blank" onClick="vPI('https://www.youtube.com/watch?v=BFNH-6K10Ic', 'QSYcfT', this.id); this.blur(); return false;">TF4 - Oreos</a> <a href="#" onClick="return lkP('1', 'QSYcfT');" id="x1"><font class="bp">(0)</font></a>
<td class="m" id="b2"><a href="/zXHNvp" id="c2" target="_blank" onClick="vPI('https://www.youtube.com/watch?v=0vjcGwZGBYI', 'zXHNvp', this.id); this.blur(); return false;">Awesome Game Boy Facts</a> <a href="#" onClick="return lkP('2', 'zXHNvp');" id="x2"><font class="bp">(0)</font></a>

我正在尝试获取每个文本aid 为的标签c并在新行上打印每个内容。

我的输出应该是这样的。

TF4 - Oreos
Awesome Game Boy Facts

到目前为止我已经尝试过了。

soup = bs4.BeautifulSoup(html)
links = soup.find_all('a',{'id' : 'c'})
for link in links:
    print link.text

但它没有找到或打印任何东西？

You can 传递一个正则表达式 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#the-keyword-arguments代替属性值：

links = soup.find_all('a', {'id': re.compile('^c\d+')})

^表示字符串的开头，\d+匹配一位或多位数字。

Demo:

>>> import re
>>> from bs4 import BeautifulSoup
>>> 
>>> html = """
... <tr>
...     <td class="m" id="b1"><a href="/QSYcfT" id="c1" target="_blank" onClick="vPI('https://www.youtube.com/watch?v=BFNH-6K10Ic', 'QSYcfT', this.id); this.blur(); return false;">TF4 - Oreos</a> <a href="#" onClick="return lkP('1', 'QSYcfT');" id="x1"><font class="bp">(0)</font></a></td>
...     <td class="m" id="b2"><a href="/zXHNvp" id="c2" target="_blank" onClick="vPI('https://www.youtube.com/watch?v=0vjcGwZGBYI', 'zXHNvp', this.id); this.blur(); return false;">Awesome Game Boy Facts</a> <a href="#" onClick="return lkP('2', 'zXHNvp');" id="x2"><font class="bp">(0)</font></a></td>
... </tr>
... """
>>> soup = BeautifulSoup(html)
>>> links = soup.find_all('a', {'id': re.compile('^c\d+')})
>>> for link in links:
...     print link.text
... 
TF4 - Oreos
Awesome Game Boy Facts

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

webscraping

beautifulsoup

使用 bs4 查找特定链接文本的相关文章

FastAPI UploadFile 与 Flask 相比慢

我创建了一个端点如下所示 app post report upload def create upload files files UploadFile File try with open files filename wb as wf
保存下拉列表中的值

这是我的情况我有 2 页一页用于选择值一页用于编辑与该值关联的数据库相关内容现在我对如何将从下拉列表中选择的值保存到 PHP 的变量中一无所知并且已经进行了相当多的研究有任何想法吗 HTML
matplotlib - 将文本包装在图例中

我目前正在尝试绘制一些pandas数据通过matplotlib seaborn 然而我的一个专栏标题特别长拉长了情节考虑以下示例 import random import pandas as pd import matplotlib p
如何在引导程序中制作两个等高的列？

我有这个代码 HTML div class container fluid div class row div class col md 6 p Line p p Line p p Line p p Line p p Line p p Li
如何使用 Python 在表单中选择选项？

我想知道如何以格式如下的形式选择选项 td align left td
Flask 和 Reactjs 抛出 JSX 转换错误

我已经开始将 ReactJS 与 Python Flask 后端结合使用通过 Flask 渲染模板时我在 Chrome 控制台中收到以下客户端错误错误找不到模块 jstransform visitors es6 templates
Python 模块 BeautifulSoup 提取锚点 href

我正在使用 BeautifulSoup 模块通过以下方式从 html 选择所有 href def extract links html soup BeautifulSoup html anchors soup findAll a print
私有属性，但却是一个神秘的领域

我想将属性设为私有但带有 pydantic 字段 from pydantic import BaseModel Field PrivateAttr validator class A BaseModel a str I want a py
CreateJs Canvas 形状在 Windows Phone 上丢失坐标

我正在制作一个 Createjs 和 html5 项目在其中绘制一个形状红色圆圈当我单击圆圈时它会发出警报它在所有台式机和 Android 手机上都能正常工作除非我在 Windows Phone 中打开它否则它在普通屏幕上工作正
类型错误：无法连接“str”和“int”对象有人可以帮助新手使用他们的代码吗？

感谢任何帮助还有任何重大缺陷或您在格式或基本方面看到的任何重大缺陷请指出谢谢 day raw input How many days locations raw input Where to days str day location
哈希 freezeset 与排序元组

在 Python 中给定一组可比较的可散列的元素s 散列是否更好frozenset s or tuple sorted s 这取决于你在做什么创建一个更快frozenset 比排序tuple but frozenset占用的内存比tu
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
配置 Django 和 Google 云存储？

I am not使用应用引擎我有一个在虚拟机上运行的普通 Django 应用程序我想使用 Google Cloud Storage 来提供静态文件以及上传提供媒体文件我有一个水桶如何将 Django 应用程序链接到我的存储桶我
Python：如何“杀死”类实例/对象？

我希望 Roach 类在达到一定量的饥饿时死亡但我不知道如何删除该实例我的术语可能有误但我的意思是窗户上有大量蟑螂我希望特定的蟑螂完全消失我会向您展示代码但它很长我将蟑螂类添加到策划者类蟑螂种群列表中一般来说每个
禁用移动设备上的锚点菜单点击

我使用嵌套列表作为带有子菜单项的菜单我曾经这样做过如果您将鼠标悬停在主菜单项上子菜单项将通过将显示从无更改为块来出现我决定让子菜单看起来就像是下拉的并使用了 CSS 过渡我遇到的问题是在第一种方法中如果您触摸 iPad 上的
使用 FormData 上传 JavaScript Blob

我在将 javascript 创建的 blob 上传到我的服务器时遇到问题基本思想是用户上传图像在 javascript 中我对图像进行居中裁剪并在传输之前对其进行下采样图像处理工作正常但上传本身无法正常工作这是执行从 canva
如何在 Safari 和 Native App 之间共享上下文？

我有需要通过 Safari 设置一些上下文上下文标记然后从本机 iOS 应用程序读取该上下文这样做的最佳实践是什么到目前为止的一些想法在 HTML 5 数据库中设置上下文但我不确定这是否有效因为该数据库可能只能从 Safari
如何从 Anaconda 更新 Pandas 以及最后是否可以使用 eclipse

我已经使用以下文档通过 Anaconda 安装了 Python http www kevinsheppard com images 0 09 Python introduction pdf http www kevinsheppard co
Flexbox 列的垂直间距相等

我在CSS中努力让我的Flexbox在垂直等距的列中显示项目从而使列的每行之间的空间均匀 html body flex container margin 0 height 100 width 100 body font family Dr
文件和目录条目 API 在 Chrome 中损坏？

我正在尝试使用文件和目录条目 API 创建一个文件上传器工具该工具允许我将文件和目录的任意组合放入浏览器窗口中以供读取和上传我完全意识到可以通过使用文件输入元素来实现类似的功能webkitdirectory已启用但我正在测试一个用

随机推荐

Spring Boot中的Junit Test不会注入服务

我有一个基本的 Spring Boot 应用程序使用 Spring Initializr 嵌入式 Tomcat Thymeleaf 模板引擎并打包为可执行 JAR 文件我有这个服务 Service public class TdkRe
在 GCP 虚拟机上运行 MLFlow

我已在 GCP VM 实例上安装了 mlflow 现在我想使用外部IP访问mlflow UI 我尝试设置防火墙规则并打开 mlflow 的默认端口但无法访问它有人可以给出在虚拟机实例上运行 mlflow 的分步过程吗我决定检查我的测试
用最后一个非零值填充 1d numpy 数组的零值

假设我们有一个一维 numpy 数组其中填充了一些int价值观假设其中一些是0 有什么办法吗使用numpy阵列的力量填满所有0值与最后找到的非零值例如 arr np array 1 0 0 2 0 4 6 8 0 0 0 0 2
如何将 ActiveDirectoryMembershipProvider 与 ASP.NET Identity 结合使用？

我正在学习使用 NET Identity 我必须向 Active Directory 进行身份验证为此目的我正在尝试使用ActiveDirecotoryMembershipProvider 我必须验证用户密码活动目录 https en
android中线程睡眠不一致

我发现了有关 Thread sleep 的一些令人惊讶的事情线程没有及时唤醒让我解释我创建一个活动无服务并运行如下所示的线程 Thread sleep 50000 50 seconds System out println som
如何将包安装到 mvc core 2 中的 wwwroot

最近我安装了VS 2017 其中包含Asp net mvc core 2 但这里存在一个非常混乱的问题这就是我如何将新包安装到 wwwroot 中我正在使用 Bower 但支持已结束并且在使用 npm 配置后无法在项目 gt gt 新
警告：此可以替换为标记

我有一个FrameLayout其中包含一个TextView和两个LinearLayouts
使用 Jquery.validate.js 验证电子邮件地址的格式 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我在用着jquery validate js http jqueryvalidation org email method 验证公式的电子
Xamarin Visual Studio 2017：无法添加跨平台视图页面

所以我使用 Xamarin 跨平台应用程序模板我想添加LoginPage xaml查看我的项目所以我选择add gt new item gt contentpage 总是有错误项目系统遇到错误在项目的层次结构中找不到新元素视图 L
有条件地包括聚合管道阶段

我有一个函数可以根据给定的参数给我一些订单但是参数可以为空在这种情况下我想留下 match alone 这是我目前拥有的代码 if req query status typeof req query status array var
如何重新创建类似 Pulse 的 UI？

我想知道如何像应用程序一样通过表格显示图像Pulse http itunes apple com us app pulse news reader id371088673 mt 8在 iPhone 上我用了UIScrollView但这并没
在 Qt 中以编程方式设置 QLabel 的像素图

我们应该用来显示图片的 Widget 是 QLabel 我们可以直接从 QtCreator 中通过设置其 pixmap 属性来完成此操作我们应该首先创建一个资源文件然后将图像添加到该资源文件中要创建 Qt 资源文件我们进入菜单文件
Bootstrap 2的模态插件中心不显示

我使用引导模式插件但模式对话框未显示在中心为什么我的错 http dl dropbox com u 573972 stackoverflow bootstrap modal html http dl dropbox com u 573
在 ElementTree 中使用 XPath

我的 XML 文件如下所示
在 Program.cs 中登录

是否可以在 Program cs Main 方法中获取 ILogger 我想将其传递给在该方法内创建的服务我只在SO上找到这个如何从 Startup cs 中写入日志 https stackoverflow com questions 4
无法从 keycloak 建立到 Mailhog 的 SMTP 连接

我有一个 docker compose 它包含 Keycloak 和 Mailhog 我在 Keycloak 中配置了 Mailhog 但它不起作用我在 Powershell 中尝试了 MailHog 它有效有人可以帮我弄清楚为什么它不
如何通过 REST api 停止 Jenkins 中的构建？

我在詹金斯有一份工作我们自己的网站通过 REST API 触发此作业的构建有时我们想中止构建有时可能是在构建开始之前在这种情况下我们有queueItem 而不是build 如何通过 REST API 执行此操作如果构建已经开始
在 Safari Mobile 10.3 上，粘性页脚可以滚动到屏幕之外

我们的移动 Web 应用程序具有粘性底部导航就像您在 iOS 应用程序中经常看到的那样并且在 Safari 10 3 发布后仅横向可以将粘性导航页脚滚动到屏幕之外尽管它是position fixed并设置bottom 0这在旧版
获取 ZipInputStream 的大小

在我们完全读取流之前是否有办法找到估计 ZipInputStream 的大小例如在读取用户数据之前我们可以使用 getNextEntry 获取条目的元数据 Inputstream 有一个方法 available 来返回可以从此输入
使用 bs4 查找特定链接文本

我正在尝试抓取一个网站并找到提要的所有标题我在获取文本时遇到问题a我需要的标签这是 html 的示例 td class m a href QSYcfT target blank TF4 Oreos a a href font class

使用 bs4 查找特定链接文本

使用 bs4 查找特定链接文本 的相关文章

随机推荐

热门标签

使用 bs4 查找特定链接文本的相关文章