将 Web 数据传递到 Beautiful Soup - 空列表

2024-01-07

我重新检查了我的代码，并查看了打开 URL 将 Web 数据传递到 Beautiful Soup 的类似操作，由于某种原因，我的代码虽然格式正确，但没有返回任何内容：

>>> from bs4 import BeautifulSoup

>>> from urllib3 import poolmanager

>>> connectBuilder = poolmanager.PoolManager()

>>> content = connectBuilder.urlopen('GET', 'http://www.crummy.com/software/BeautifulSoup/')

>>> content
<urllib3.response.HTTPResponse object at 0x00000000032EC390>

>>> soup = BeautifulSoup(content)

>>> soup.title
>>> soup.title.name
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'name'
>>> soup.p
>>> soup.get_text()
''

>>> content.data
a stream of data follows...

如图所示，很明显 urlopen() 返回一个 HTTP 响应，该响应由变量 content 捕获，它可以读取响应的状态，但在将其传递到 Beautiful Soup 后，Web 数据没有得到转换进入 Beautiful Soup 对象（变量 soup）。你可以看到我尝试读取一些标签和文本， get_text() 返回一个空列表，这很奇怪。

奇怪的是，当我通过 content.data 访问网络数据时，数据会显示出来，但它没有用，因为我无法使用 Beautiful Soup 来解析它。我的问题是什么？谢谢。

如果你只是想抓取页面，requests将获得您需要的内容：

from bs4 import BeautifulSoup

import requests
r = requests.get('http://www.crummy.com/software/BeautifulSoup/')
soup = BeautifulSoup(r.content)

In [59]: soup.title
Out[59]: <title>Beautiful Soup: We called him Tortoise because he taught us.</title>

In [60]: soup.title.name
Out[60]: 'title'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

beautifulsoup

urllib3

webcontent

将 Web 数据传递到 Beautiful Soup - 空列表的相关文章

Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
如何正确地将 MIDI 刻度转换为毫秒？

我正在尝试将 MIDI 刻度增量时间转换为毫秒并且已经找到了一些有用的资源 MIDI Delta 时间刻度到秒 http www lastrayofhope co uk 2009 12 23 midi delta time ticks
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
如何从Python中的字符串中提取变量名称和值

我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量更具体地说我对字典变量感兴趣这样我就可以获得变量的值 id和name python 这是由提供
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
mac osx 10.8 上的初学者 python

我正在学习编程并且一直在使用 Ruby 和 ROR 但我觉得我更喜欢 Python 语言来学习编程虽然我看到了 Ruby 和 Rails 的优点但我觉得我需要一种更容易学习编程概念的语言因此是 Python 但是我似乎找不到适用于
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f

随机推荐

闭包是否违反了函数式编程范式？

函数式编程避免状态和可变数据闭包通过绑定其词法环境来隐藏状态从而对其自由状态进行封闭变量如果 Haskell 支持闭包它怎么会是纯函数式的呢它们不会破坏引用透明度吗在 Haskell 中闭包具有自由变量就像在数学中可以编写
JavaScript 相当于 MySQL 函数 SUBSTRING_INDEX()

SUBSTRING INDEX http dev mysql com doc refman 5 1 en string functions html function substring indexMySQL 中返回指定分隔符出现次数之前的
使用 Dockerrun.aws.json 通过 CLI 部署命令部署到 elasticbeanstalk

我正在运行一个具有多个环境的 elasticbeanstalk 应用程序这个特定的应用程序托管着托管 Web 服务的 docker 容器要将应用程序的新版本上传并部署到其中一个环境我可以通过 Web 客户端并单击上传和部署然后从文
多值字段是个好主意吗？

最近向我介绍了 Access 2007 的新功能即多值字段我的最初印象是在单个字段中使用多个值是一个坏主意传统上如果您希望记录的某个字段具有多个值您将创建另外两个表并将它们与外键链接这样可以轻松查询并确保重复值引用相同的项目
“@”有什么作用？

有时我在我正在从事的项目中看到以下内容 text myVar 那有什么作用编辑文本是 TextArea 组件中的一个属性符号用于双向绑定传统绑定只是一种方式所以你在 ActionScript 中有这样的东西 Bindable
WindowInteropHelper.Handle — 我需要释放它吗？

在 WPF 中我使用以下代码获取 IntPtr 句柄 IntPtr mainWindowHandle new WindowInteropHelper Application Current MainWindow Handle 当我使用完这
如何从 SQL Server 2000-2008 中位于一组名称的多个表中选择列名称

如果我有一组这样的名字 first fname firstname namef namefirst name SQL Server 2000 2008 中检索包含上述特定数据库的列名的不同表名的最佳方法是什么我想从显示的表列表中排除系统表
如何将背景图像添加到 Google 图表工具的动态 (JavaScript/SVG) 图表中？

我正在更新一个旧的数据可视化模块该模块使用谷歌图像图表API http code google com apis chart image 现在我们要切换到新的可视化 API http code google com apis chart
如何在 aptana 3 上格式化代码？

它在首选项中显示默认代码格式设置但我看不到任何格式化代码文件的选项请帮忙编辑我可以通过选择文本和 ctrl shift F 来设置文本格式但我想格式化整个源代码或至少一个给定的文件夹目前这不是一个选择我在这里添加了一张票 ht
在 R 中安装包 mvoutlier 时如何解决错误“缺少必需的标头 GL/gl.h”？

我正在尝试安装package mvoutlier但安装过程中出现如下错误 install packages mvoutlier configure error missing required header GL gl h ERROR co
使用Retrofit(Android)上传大视频文件出现OutOfMemoryError

对不起我的英语不好我尝试在服务器上上传大型视频文件该文件超过 50 MB 当我上传小文件时一切正常在我设置的清单中android largeHeap true and android hardwareAccelerated fals
如何在 VSTO / C# 中使用行号和列号获取 Excel 范围？

我认为这个问题已经概括了这一点给定行和列的两个整数或范围两个角的行和列的四个整数如何获取该范围的范围对象其中范围是多个单元格 Excel Worksheet sheet workbook ActiveSheet Excel Range
python 为什么我不能在将列表附加到 for 循环中后清除列表而不保持清除状态[重复]

这个问题在这里已经有答案了例如为什么 f 不能打印出列表中的数字 1 10 f a for i in range 10 a append i f append a a clear print f 我知道还有其他方法可以完成这个确切的程序
如何使用python每次生成随机json数据？

以下代码生成随机 json 数据 import json my dict foo 42 bar baz Hello poo 124 2 my json json dumps my dict print my json 如何自动化它以便每次生
VB.NET 2005 - “全局”事件处理程序？

假设对于 WinForms 应用程序中的每个 Form 您想要将光标更改为 WaitCursor 执行此操作的明显方法是将代码添加到实例化显示表单的每个位置 Try Me Cursor Cursors WaitCursor Dim f A
无法在 AWS 负载均衡器后面从 http 重定向到 https

我正在具有 rancher 后端的 AWS 实例上运行 traefik 我正在 AWS 负载均衡器处终止 SSL 并在端口 80 上与实例进行通信该实例将 80 流量转发到 traefik 容器所以负载均衡器目前有 https 443
安装 libxml2 的权限被拒绝

所以我正在努力更新我的 Rails 环境以支持 4 0 和 ruby 2 0 到目前为止我在安装 libxslt 时遇到了一些麻烦当在终端中运行时我得到 brew install libxml2 Error Permission de
将当前时间与两个时间字符串进行比较[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我怎样才能得到像 11 30 这样的时间以便我想将它与以下内容进行比较 strOpenTime 10 00 strCloseTime 2
unsigned long 无法保存超过 2,147,483,647 的正确数字

源代码 include
将 Web 数据传递到 Beautiful Soup - 空列表

我重新检查了我的代码并查看了打开 URL 将 Web 数据传递到 Beautiful Soup 的类似操作由于某种原因我的代码虽然格式正确但没有返回任何内容 gt gt gt from bs4 import BeautifulSou

将 Web 数据传递到 Beautiful Soup - 空列表

将 Web 数据传递到 Beautiful Soup - 空列表 的相关文章

随机推荐

热门标签

将 Web 数据传递到 Beautiful Soup - 空列表的相关文章