Beautiful Soup 中 find_all 方法的返回类型是什么？

2024-04-28

from bs4 import BeautifulSoup, SoupStrainer 
from urllib.request import urlopen
import pandas as pd 
import numpy as np 
import re
import csv
import ssl
import json
from googlesearch import search
from queue import Queue
import re 

links = []
menu = []
filtered_menu = []


def contains(substring, string):
     if substring.lower() in string.lower():
         return True
     else:
         return False


for website in search("mr puffs", tld="com", num=1, stop=1, country="canada", pause=4): 
 links.append(website)


soup = BeautifulSoup(urlopen(links.pop(0)), features="html.parser")
menu = soup.find_all('a', href=True)

for string in menu:
    if contains("contact", string):
      filtered_menu.append(string)


print(filtered_menu)

我正在创建一个网络爬虫，它将从网站中提取联系信息。但是，为了做到这一点，我需要访问网站的联系页面。使用 googlesearch 库，代码搜索关键字并将所有结果（最多一定限制）放入列表中。为简单起见，在此代码中，我们仅放入第一个链接。现在，通过这个链接，我正在创建一个漂亮的汤对象，并提取网站上的所有其他链接（因为通常在主页上找不到联系信息）。我将这些链接放在一个名为菜单的列表中。

现在，我想过滤菜单中仅包含“联系人”的链接。示例：“www.smallBusiness.com/our-services”将从新列表中删除，而“www.smallBusiness.com/contact”或“www.smallBusiness.com/contact-us”将保留在列表中。

我定义了一个方法来检查子字符串是否在字符串中。但是，我得到以下异常：

类型错误：“NoneType”对象不可调用。

我尝试通过执行 re.search 使用正则表达式，但它说预期类型的字符串或类似字节的值不在参数中。

我认为这是因为 find_all 的返回类型不是字符串。这可能是我在文档中找不到的其他内容。如果是这样，如何将其转换为字符串？

根据下面答案的要求，打印菜单列表给出的内容如下：

从这里，我只想提取突出显示的链接：

BeautifulSoup.find_all()类型是bs4.element.ResultSet（这实际上是一个列表）

个别项目find_all()，在你的情况下你调用的变量"string"属于类型bs4.element.Tag.

As your contains函数期望type str，你的 for 循环应该类似于：

for string in menu:
    if contains("contact", str(string)):
      filtered_menu.append(string)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Beautiful Soup 中 find_all 方法的返回类型是什么？的相关文章

Google Analytics 正则表达式排除短语

我正在使用以下 URL 创建内容分组 my category something my category somethingelse my category product1 brand color my category product2
将字段重新格式化为列，其他字段（与先前结构中成为列的字段配对）成为新列中的字段

我的任务是清理慈善机构设计的移动应用程序中的数据在一个部分中用户问答应用程序使用会话由一行表示该部分由重复的问题答案字段对组成其中一个字段代表所提出的问题然后它旁边的字段代表相应的答案每个问题字段和答案列对一起代表一个独特的问
如何创建毫秒粒度的 Python 时间戳？

我需要一个自纪元以来的毫秒 ms 时间戳这应该不难我确信我只是缺少一些方法datetime或类似的东西实际上微秒 s 粒度也很好我只需要亚 1 10 秒的计时例子我有一个每 750 毫秒发生一次的事件假设它检查灯是否打开或关闭
优化正则表达式来解析中文拼音[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我有一个有
Python gdal 未定义符号 GDALRasterBandGetVirtualMem

我正在尝试使用Python GDAL 绑定 https pypi python org pypi GDAL 通过 pip 天真地安装绑定时安装失败并显示错误 VSIFTruncateL 未在此范围内声明 https gis stackex
如果使用 unicode 字符，则从数据库中进行 SELECT 会出现问题

我在用着latest带DatabaseLibrary的python和机器人框架版本 https franz see github io Robotframework Database Library api 1 0 1 DatabaseLi
将文本中的所有 URL 替换为 PHP 中的可点击链接[重复]

这个问题在这里已经有答案了我有一个用 PHP 编写的 Web 应用程序我想找到用户评论中的所有 URL 并将它们更改为可点击的链接我搜索了很多网站和页面找到了以下解决方案不幸的是我没有再次找到它的参考链接感谢其作者该代码可以完
从内存中发送图像

我正在尝试为 Discord 机器人实现一个系统该系统可以动态修改图像并将其发送给机器人用户为此我决定使用 Pillow PIL 库因为它对于我的目的来说似乎简单明了这是我的工作代码的示例它加载一个示例图像作为测试修改在其上
从另一个文件覆盖函数中的变量

一总结我不知道如何从另一个文件覆盖函数中的变量 2 示例 2 1 配置 I use logbook http logbook pocoo org and pyfancy https github com ilovecode1 Pyfan
使用正则表达式检查整个字符串

我正在尝试检查字符串是否是数字因此正则表达式 d 似乎不错然而由于某种原因该正则表达式也适合 78 46 92 168 8000 这是我不想要的一些代码 class Foo rex re compile d def bar sel
Buildozer Numpy RuntimeError：工具链损坏：无法链接简单的 C 程序

用 Python 编写我的第一个 Android 应用程序并使用 Buildozer 对其进行打包因为稍后在项目中需要使用numpy 所以我尝试打包以下测试代码 import numpy import kivy kivy require
带有redirect_uri的social-auth-app-django Facebook后端状态

我知道我的问题听起来像是重复的但我到处寻找但没有找到任何解决方案我正在努力为我的 django web 应用程序实现社交登录到目前为止谷歌推特和雅虎登录均按预期工作但facebook总是给出以下错误 URL 被阻止此重定向失败
如何在 iPython 中获取最后分配的变量的值？

我是一个完全的 iPython 新手但我想知道是否有办法获取最后分配的变量的值 In 1 long variable name 333 In 2
如何在Python中获取套接字的外部IP？

当我打电话时socket getsockname 在套接字对象上它返回我的机器的内部 IP 和端口的元组但是我想找回我的外部IP 最便宜最有效的方式是什么如果没有外部服务器的配合这是不可能的因为您和另一台计算机之间可能存在任意
emacs 临时文件的 .gitignore 正则表达式

我正在尝试 gitignore emacs 临时自动保存文件我在用着在我的 gitignore 中 But git add A在子文件夹中运行仍然给我 new file make collections py new file nor
用于验证 InetSocketAddresses 的正则表达式（ipv4/v6 + 端口地址）

我在寻找testedipv4 和 ipv6 的正则表达式InetSocket地址 http download oracle com javase 6 docs api java net InetSocketAddress html toSt
django 南迁移，不设置默认值

我使用 South 来迁移我的 Django 模型然而南方有一个令人讨厌的错误它不会在 Postgres 数据库中设置默认值例子 created at models DateTimeField default datetime no
Python：如何对数组 X 进行排序，但对 Y 进行相同的相对排序？

例如 X 5 6 2 3 1 Y 7 2 3 4 6 我对X进行排序 X 1 2 3 5 6 但我希望对 Y 应用相同的相对排序以便数字保持与以前相同的相对位置 Y 6 3 4 7 2 我希望这是有道理的通常你会做一个zip sort
如何测试send_file烧瓶

我有一个小型烧瓶应用程序它需要上传一些图像并将它们转换为多页 tiff 没什么特别的但是如何测试多个文件的上传和文件下载呢我的测试客户端 class RestTestCase unittest TestCase def setUp s
Pandas：如何删除以 nan 作为列名的多个列？

根据标题这是一个可重现的示例 raw data x this that this that this np nan np nan np nan np nan np nan np nan y np nan np nan np nan np

随机推荐

在进行字符识别之前使用 OpenCV 进行图像预处理（超正方体）

我正在尝试开发简单的 PC 应用程序用于车牌识别 Java OpenCV Tess4j 图像不是很好进一步它们会很好我想对超立方体图像进行预处理但我被困在车牌检测矩形检测上我的步骤 1 源图像 Mat img new Mat i
在 Matlab、VB6 和 VB.NET 程序之间发送消息的最简单方法

我们正在将一套数据采集和分析例程从 VB6 程序升级为 VB NET VB6 和 Matlab 程序的混合体我们希望保持系统模块化单独的 EXE 以便我们可以轻松创建专门的独立分析程序而无需不断升级大型应用程序当所有程序都是用 VB
何时在 Springs @Configuration 中将 proxyBeanMethods 设置为 false？

当查看 spring 自动配置时源代码 https github com spring projects spring boot tree master spring boot project spring boot autoconfigu
如何用Spring进行只读和读写的数据库路由

我正在研究 Spring 中的事务路由但我的应用程序存在运行时问题我有两个 MySQL 数据库一个用于读取一个用于读写但是我的路由配置不起作用当我应用只读配置时我没有成功这是我的配置 pom xml
Akka、SQS 和 Camel 的消费者投票率

我正在做的一个项目需要从SQS读取消息我决定使用Akka来分布式处理这些消息由于 Camel 支持 SQS 并且在 Consumer 类中内置了 Akka 中使用的功能因此我认为最好以这种方式实现端点并读取消息尽管我还没有看到很多人
如何在中等规模的 Rails 应用程序中组织控制器？

我正在开发一个具有相当多相关模型的应用程序并且想听听一些关于如何最好地组织控制器的意见以下是我一直在考虑的一些选择 1 为控制器命名空间例如有一个controllers admin 目录和一个controllers public 目
Apache mod_rewrite：在 Windows 计算机上使用 PHP 脚本的 RewriteMap 指令

这已经让我发疯了我似乎无法让 RewriteMap 指令适用于 Windows 上的 php 脚本这是我的 httpd conf 文件中的相关片段
在 AspNet WebApi 帮助页面中生成模型描述

我如何生成一个描述对于 Asp Net Web Api 帮助页面中的我的模型 Example 正如您从示例中看到的我已经可以生成Name Type and Additional Information 但我如何生成Description
部署后配置文件中缺少

更新我在下面有一个问题但实际上我的问题可以通过提出一个稍微不同的问题来解决为什么在某些机器上我的应用程序会抛出错误 Configuration system failed to initialize System Configurat
由于 QCoreApplication 事件循环，QThread 永远不会退出

Problem 所以我有一个 CommandRetriever 类来保存一些命令并且should在不同的线程上执行这些命令 class CommandRetriever public CommandRetriever CommandRet
Azure DevOps API 版本定义

尝试从其他项目复制发布模板时出现以下错误 VS402982 未为 PROJECT ENV 阶段设置保留策略发布管道级别的保留策略已弃用 id 8 name PROJECT ENV rank 1 owner displayName Zoe
根据一列删除重复项并保留最后一个条目

我正在尝试根据一列删除重复项并保留最后一个条目现在我的公式保持第一个值我正在使用这篇文章中找到的公式选择具有不同列值的所有行 Google 查询语言 https stackoverflow com questions 30318460
关闭 MAMP 中的缓存

尝试关闭 MAMP 中的缓存进行开发在进行小更改后等待缓存过期会降低我的工作效率当我更改为 PHP 5 5 3 时出现问题更改回来并不能解决问题经过研究我采取了以下步骤来未成功禁用缓存注释掉 php ini 中的 OPcac
引用的项目x不存在

大家好我将一个项目的解决方案从vs2008升级到vs2010 但现在我有一个奇怪的问题我在多个解决方案中引用了一个项目 3个解决方案在其中两个解决方案中引用出现错误我可以添加引用项目引用但是当我构建时我收到警告引用的项目
iOS Siri 意图扩展“我没有看到适用于该功能的应用程序。您需要下载一个。”

我正在编写一个 Swift 框架其中包含 Siri 意图定义文件和代码可从主应用程序 Today 扩展和 Siri 意图扩展中使用我正在使用 Cocoapods 来分发框架它位于私人存储库中因此我无法共享框架本身这非常适合从应用
JTable 中的格式化字段问题 - Integer 和 Double 之间的差异

更新已确认为错误当 columnClass 为 Double 时 JTable 无法将给定对象格式化为 Number 错误 ID 7051636 https bugs java com bugdatabase view bug bug i
Docker：入口点的覆盖涉及CMD规范？

这是我纯粹好奇的问题我必须个性化 Docker 映像特别是这是我的 dockerfile 的摘录 ARG DEFAULT PHP VERSION FROM php DEFAULT PHP VERSION DEFAULT PHP VERS
使用带有部分模板文件的 i18n gem 时出现问题

我正在使用 Ruby on Rails 3 1 我想知道如何正确处理与部分模板文件相关的国际化那是在我的app views users flag html erb我有的文件在我的app views users flag form ht
Ace Editor 获取当前选定的行号和文本

我目前正在使用 Ace Editor 但我在文档中找不到与检索当前所选行号及其文本相关的任何内容有任何想法吗首先定义选定行 ace 中的选择可以跨多行设置如果您的意思是未设置选择当前行是光标闪烁的行 var currline
Beautiful Soup 中 find_all 方法的返回类型是什么？

from bs4 import BeautifulSoup SoupStrainer from urllib request import urlopen import pandas as pd import numpy as np imp

Beautiful Soup 中 find_all 方法的返回类型是什么？

Beautiful Soup 中 find_all 方法的返回类型是什么？ 的相关文章

随机推荐

热门标签

Beautiful Soup 中 find_all 方法的返回类型是什么？的相关文章