TypeError：在 Python 中使用 split 和 BeautifulSoup 时，“NoneType”对象不可调用

2024-01-06

我今天正在研究 BeautifulSoup 和 Requests API。所以我想我应该写一个简单的抓取工具，它会跟踪深度为 2 的链接（如果这有意义的话）。我正在抓取的网页中的所有链接都是相对的。（例如：<a href="/free-man-aman-sethi/books/9788184001341.htm" title="A Free Man">）所以为了使它们绝对，我想我会使用相对链接将页面网址加入urljoin.

为此，我必须首先从<a>标签，为此我想我会使用split:

#!/bin/python
#crawl.py
import requests
from bs4 import BeautifulSoup
from urlparse import urljoin

html_source=requests.get("http://www.flipkart.com/books")
soup=BeautifulSoup(html_source.content)
links=soup.find_all("a")
temp=links[0].split('"')

这会产生以下错误：

Traceback (most recent call last):
  File "test.py", line 10, in <module>
    temp=links[0].split('"')
TypeError: 'NoneType' object is not callable

在正确阅读文档之前，我意识到这可能不是实现我的目标的最佳方法，但为什么会出现类型错误？

links[0]不是一个字符串，它是一个bs4.element.Tag。当你尝试抬头时split在其中，它发挥了它的魔力，并尝试找到一个名为的子元素split，但没有。你称其为“无”。

In [10]: l = links[0]

In [11]: type(l)
Out[11]: bs4.element.Tag

In [17]: print l.split
None

In [18]: None()   # :)

TypeError: 'NoneType' object is not callable

使用索引来查找 HTML 属性：

In [21]: links[0]['href']
Out[21]: '/?ref=1591d2c3-5613-4592-a245-ca34cbd29008&_pop=brdcrumb'

Or get如果存在不存在属性的危险：

In [24]: links[0].get('href')
Out[24]: '/?ref=1591d2c3-5613-4592-a245-ca34cbd29008&_pop=brdcrumb'


In [26]: print links[0].get('wharrgarbl')
None

In [27]: print links[0]['wharrgarbl']

KeyError: 'wharrgarbl'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

TypeError：在 Python 中使用 split 和 BeautifulSoup 时，“NoneType”对象不可调用的相关文章

pywinauto 32位用户警告

我正在尝试使用 pywinauto 在每次更新类文件时自动启动和停止 TomCat 但是当我尝试运行它时它会给出以下警告 UserWarning 32 bit application should be automated using
重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
如何使用 lxml 解析包含前缀但没有名称空间声明的 XML？

我有一堆使用前缀但没有相应名称空间声明的 XML 文件像这样的东西
使用 Pymongo 从 Windows 连接到 AWS 实例上的 MongoDB

此行反复抛出错误 client MongoClient ec2 12 345 67 89 us east 2 compute amazonaws com 27017 ssl True ssl keyfile C mongo pem 由于显而
小数缓存是Python规范中定义的还是一个实现细节？

Python 似乎有一个所谓的小数字缓存用于存储 5 到 256 范围内的数字我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
了解 asyncio 已经运行的永久循环和挂起的任务

我在理解如何将新任务挂起到已经运行的事件循环中时遇到问题这段代码 import asyncio import logging asyncio coroutine def blocking cmd while True logging in
python 脚本中 os.system 的 256 和 512 响应代码是什么

当我在 python 中使用 os system ping 服务器时我得到多个响应代码使用的命令 os system ping q c 30 s SERVERANME 0 在线 256 离线 512 512 是什么意思 Per the
Flask 中的 import 和 extends 有什么区别？

我正在阅读 Flask Web 开发在例4 3中 extends base html import bootstrap wtf html as wtf 我想知道 extends 和 import 有什么区别我认为它们在用法上很相似在什
使用 python 只读取 Excel 中的可见行

我想只读取 python 中 Excel 工作表中的可见行输入 Excel表所以当我过滤时作为 python 中的输出在本例中我将仅获得可见数据 1 行这是我的代码 from openpyxl import load workbo
python：是否有用于对输入流进行分块的库函数？

我想对输入流进行分块以进行批处理给定一个输入列表或生成器 x in 1 2 3 4 5 6 我想要一个能够返回该输入块的函数说如果chunk size 4 then x chunked 1 2 3 4 5 6 这是我一遍又一遍地做的事
如何在 Sublime 2 REPL Mac 中运行 Python 3

我的问题如下我安装了 sublime 2 和 sublime repl 插件一切正常我唯一需要的是更改在控制台内置的 sublimerepl 上运行的 python 版本我的意思是我有 python 2 7 5 预先安装了 mav
Celery：每个工作人员的 task_acks_late 的不同设置/向 celery 添加自定义选项

这个问题是后续问题django celery 禁用一个工作者的预取有错误吗 https stackoverflow com questions 58290045 django celery disable prefetch for one
在python中安装scipy模块时出错

我正在尝试使用 pip 在 python 中安装 scipy 模块它显示以下错误 Command c users sony appdata local programs python python35 32 python exe u c
Python 中的十进制到二进制半精度 IEEE 754

我只能使用以下命令将十进制转换为二进制单精度 IEEE754struct pack模块或者使用相反的方法 float16 或 float32 numpy frombuffer 是否可以使用 Numpy 将十进制转换为二进制半精度浮点数我
Python 队列 get()/task_done() 问题

我的消费者端队列 m queue get queue task done
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
如何限制scrapy请求对象？

所以我有一个蜘蛛我认为它正在泄漏内存结果当我检查 telnet 控制台 gt gt gt prefs 时它只是从链接丰富的页面中抓取了太多链接有时它会超过 100 000 个现在我已经一遍又一遍地浏览文档和谷歌但我找不到一种方法
如何配置 Eclipse 在使用 Pydev 插件选择“运行”或“调试”时启动浏览器

我正在使用 Eclipse Pydev 插件学习 Python 和 Django 当我按运行或调试时我希望内部或外部浏览器使用 URL http 127 0 0 1 启动或刷新我见过用 PHP 插件完成的但没有用 Pydev
在Python中从CSV文件中获取随机行并找到相应的单词，就像测验一样

抱歉标题含糊不清想不出更好的表达方式我有一个包含德语英语单词的 CSV 文件如下所示 Ja Yes Nein No Katze Cat 我希望我的 python 脚本从 CSV 文件中打印一个随机的德语单词并要求他们输入英语单词

随机推荐

如何管理 R 包中的数据库连接

我正在构建一个 R 包其主要目的是消除处理专有数据库的痛苦该数据库需要一些相当复杂的 SQL 查询才能获取数据因此与 Microsoft SQL Server 的连接通过以下方式获得 odbcDriverConnect 是这个包的
mkdir()：Laravel 权限被拒绝

我正在服务器中运行以下脚本来上传图像并在本地主机上完美运行时收到以下错误 Code user id Auth id logicpath userdp user id pubpath userdp user id dpFile path u
如何使用框架创建有效的 HTML5？

对于学校我必须制作一个网站must使用框架我向老师投诉没有成功我想使用 HTML5 但似乎框架已被弃用我是否需要使用 XHTML HTML 4 或者是否有一些解决方法可以使我的页面通过使用框架而成为有效的 HTML5 我知道你的课已
如何对套件中的所有测试用例应用 JUnit @Rule

我正在使用 JUnit 4 10 来运行测试套件并且按照 Matthew Farwell 在如何立即重新运行失败的 JUnit 测试 https stackoverflow com questions 8295100 how to re
一个方法如何知道它是否在 UI 线程上运行？

我有一个简单的问题但我大约 80 确定问题的答案会伴随着你做错了所以我也会问这个不简单的问题简单的问题我有一个公共类的公共方法我希望它在 UI 线程上调用时抛出异常我怎样才能做到这一点不太简单的问题是是否有更简单的方法来重
优雅地检查给定日期是否是昨天

假设您有一个 Unix 时间戳那么有什么简单和或优雅的方法来检查该时间戳是否是昨天的某个时间我主要寻找 Javascript PHP 或 C 的解决方案但也欢迎伪代码和语言无关的解决方案如果有在 C 中你可以使用这个 bool
Heroku 通过 HTTPS 推送

我正在努力表演 git push heroku master 但我正在使用的电脑有一些端口被阻止所以我不能push via email protected cdn cgi l email protection projectname gi
如何显示其他域中的图像/Chrome打包应用程序

我有一个 JSON 它返回图像 URL 列表以访问已放置在此域白名单 manifest json 中的字段中的 JSON 但是当我尝试查看图片时它抱怨无法访问图像 1 如何Perm可以显示包App内没有的图片 2 如何下载图片到下载AP
Angular 7 SyntaxError：预期表达式，当 basehref 从根更改时，在生产中得到 '<

每当我通过 ng 将 basehref 更改为 v2 或以外的任何其他值时build prod base href v2 我收到以下错误 Angular 7 语法错误预期表达式得到这是一种矫枉过正 ng build aot pro
将多维数组转换为单数组[重复]

这个问题在这里已经有答案了我有一个无缘无故多维的数组 This is how my array is currently Array 0 gt Array 0 gt Array plan gt basic 1 gt Array plan
TS 错误：类型“string”不是数组类型或字符串类型。字符串怎么不是字符串呢？

TS 抛出奇怪的错误错误 125 18 TS2569 类型字符串不是数组类型或字符串类型使用编译器选项 downlevelIteration 允许迭代器进行迭代字符串怎么就不是字符串了呢我想看看 TS 如何编译字符串的扩展运算符
OpenCV VideoWriter 产生“找不到起始编号”错误

我正在尝试在 Windows 10 上使用 FFV1 编解码器和 opencv ImageWriter 编写 16 位灰度视频这是我的代码 import numpy as np import cv2 pdb print cv2 getBu
GCC 的 -Wpsabi 选项到底有什么作用？压制它会产生什么影响？

背景 In the last year I was using the nlohmann json library 1 and was cross compiling on x86 64 using GCC 5 x arm linux gn
Oracle 字符串字段空值检查

在下面的示例中为什么除了 NAME1 之外在 Oracle 11g 中所有结果都给出 null 如果我明确提到空间则它需要空间否则仅 null 而不是空字符串请帮助我澄清这一点在 NAME2 中我指定了空白空间但它仍然给出
关于Python3.4.1客户端连接redis时的char b前缀

我遇到了麻烦我的代码如下但我不知道为什么在输出字符串 Hello Python 之前有一个字符 b gt gt gt import redis gt gt gt redisClient redis StrictRedis host 19
list.map 未显示在 React 组件中

我试图在视图中获取此列表但这不会显示任何项目 render function var list this state list console log Re rendered return ul list map function obj
如何关闭前端“编辑模块”按钮 Joomla 3.2.2？

有谁知道如何禁用此功能见下图附加信息我正在使用 Rocket Theme 的 Metropolis 模板所以我不确定 Rocket Theme 是否通过更新引入了此功能或者我通过 Joomla 的更新之一获得了它每当注册用户将鼠
“git diff”和“git difftool”有什么区别？

有什么区别git diff and git difftool 我看到我可以编辑 git 的配置文件来轻松更改调用时使用的外部工具git difftool看来git diff将补丁输出到命令行我为什么要使用git diff 正如您和 WKP
.items 不适用于 Django 模板中的 defaultdict

我无法让 items 在我的 Django 模板中工作从我的 CBV get context data 复制并粘贴 context data assertion dict context dataitems assertion dict
TypeError：在 Python 中使用 split 和 BeautifulSoup 时，“NoneType”对象不可调用

我今天正在研究 BeautifulSoup 和 Requests API 所以我想我应该写一个简单的抓取工具它会跟踪深度为 2 的链接如果这有意义的话我正在抓取的网页中的所有链接都是相对的例如 a href free man ama

TypeError：在 Python 中使用 split 和 BeautifulSoup 时，“NoneType”对象不可调用

TypeError：在 Python 中使用 split 和 BeautifulSoup 时，“NoneType”对象不可调用 的相关文章

随机推荐

热门标签

TypeError：在 Python 中使用 split 和 BeautifulSoup 时，“NoneType”对象不可调用的相关文章