使用Python请求获取html？

2024-01-22

我正在尝试自学一些基本的网络抓取。使用 Python 的 requests 模块，我能够抓取各种网站的 html，直到我尝试了以下方法：

>>> r = requests.get('http://www.wrcc.dri.edu/WRCCWrappers.py?sodxtrmts+028815+por+por+pcpn+none+mave+5+01+F')

我得到的不是该页面源的基本 html，而是：

>>> r.text
'\x1f\ufffd\x08\x00\x00\x00\x00\x00\x00\x03\ufffd]o\u06f8\x12\ufffd\ufffd\ufffd+\ufffd]...

>>> r.content
b'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xed\x9d]o\xdb\xb8\x12\x86\xef\xfb+\x88]\x14h...

我已经尝试了 get/post 的多种组合以及我可以从文档、SO 和其他示例中猜测到的每种语法。我不明白我在上面看到的是什么，无法将其变成我可以阅读的任何内容，并且不知道如何获得我真正想要的东西。我的问题是，如何获取上述页面的 html？

有问题的服务器正在给你一个压缩响应。服务器也是非常破碎;它发送以下标头：

$ curl -D - -o /dev/null -s -H 'Accept-Encoding: gzip, deflate' http://www.wrcc.dri.edu/WRCCWrappers.py?sodxtrmts+028815+por+por+pcpn+none+mave+5+01+F
HTTP/1.1 200 OK
Date: Tue, 06 Jan 2015 17:46:49 GMT
Server: Apache
<!DOCTYPE HTML PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "DTD/xhtml1-transitional.dtd"><html xmlns="http: //www.w3.org/1999/xhtml" lang="en-US">
Vary: Accept-Encoding
Content-Encoding: gzip
Content-Length: 3659
Content-Type: text/html

The <!DOCTYPE..>线有不是有效的 HTTP 标头。因此，剩余的标头过去了Server are ignored。尚不清楚服务器为何会插话；在所有可能的情况下WRCCWrappers.py是一个 CGI 脚本，不输出标头，但在 doctype 行后包含一个双换行符，欺骗 Apache 服务器在那里插入额外的标头。

像这样，requests也没有检测到数据是 gzip 编码的。数据就在那里，你只需要对其进行解码即可。或者如果它不是相当不完整的话你也可以。

解决方法是告诉服务器不要进行压缩：

headers = {'Accept-Encoding': 'identity'}
r = requests.get(url, headers=headers)

并返回未压缩的响应。

顺便说一句，在 Python 2 上，HTTP 标头解析器并不那么严格，并且设法将 doctype 声明为标头：

>>> pprint(dict(r.headers))
{'<!doctype html public "-//w3c//dtd xhtml 1.0 transitional//en" "dtd/xhtml1-transitional.dtd"><html xmlns="http': '//www.w3.org/1999/xhtml" lang="en-US">',
 'connection': 'Keep-Alive',
 'content-encoding': 'gzip',
 'content-length': '3659',
 'content-type': 'text/html',
 'date': 'Tue, 06 Jan 2015 17:42:06 GMT',
 'keep-alive': 'timeout=5, max=100',
 'server': 'Apache',
 'vary': 'Accept-Encoding'}

and the content-encoding信息得以保存，所以有requests如预期的那样为您解码内容。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用Python请求获取html？的相关文章

在Python中迭代文件对象不起作用，但readlines()可以，但效率低下

在下面的代码中如果我使用 for line in fin 它只对 a 执行但如果我使用 wordlist fin readlines for line in wordlist 然后它执行 a thru z But readlines 立
Python 列表理解不适用于 itertools.groupby 解码

我正在尝试解码结果itertools groupby到一个值列表中我的来源是 x 1 2 2 1 6 3 6 5 1 3 最初的方法是使用 for 语句来实现如下所示 keyfunc itemgetter 0 groups unique
S3 选择检索 CSV 中的标头

我尝试使用以下代码从存储在 S 存储桶中的 CSV 中获取记录子集 s3 boto3 client s3 bucket bucket file name file sql stmt SELECT S FROM s3object S LIMI
如何充分释放函数中使用的GPU内存

我在用着cupy在接收一个函数numpy数组将其推到 GPU 上对其进行一些操作并返回cp asnumpy它的副本问题函数执行后内存没有被释放如ndidia smi 我知道内存的缓存和重用cupy 但是这似乎仅适用于每个用户当
Highcharts 奇怪的分组行为

我正在使用延迟加载 http www highcharts com stock demo lazy loading加载 OHLC 数据的方法在服务器端我使用 Python MySQL 并有 4 个包含 OHLC 数据的表时间间隔为 5
导入错误：没有名为“wordcloud”的模块

我正在努力将 wordcloud 安装到我的环境中这是我正在运行的代码 import os import matplotlib pyplot as plt from wordcloud import WordCloud 我收到以下错误 I
为什么我不能“string”.print()？

我的理解print 在 Python 和 Ruby 以及其他语言中它是字符串或其他类型上的方法因为它的语法非常常用打印嗨 works 那么为什么不呢 hi print 在 Python 中或 hi print在红宝石工作当你
将分布拟合到直方图

I want to know the distribution of my data points so first I plotted the histogram of my data My histogram looks like th
比较两个文本文件并计算差异

我一直在尝试在Python中比较两个文本文件本质上我想打开它们并一次比较一个字符如果字符不同则向计数器添加1 然后显示该值这是我到目前为止所拥有的 usr bin env python diff 0 import random im
获取 HTML 代码的结构

我正在使用 BeautifulSoup4 我很好奇是否有一个函数可以返回 HTML 代码的结构有序标签这是一个例子 h1 Simple example h1 p This is a simple example of html page
对于 SEO 而言，.html 扩展名是否比 .php 和 .aspx 更好？

对于 SEO 而言 html 扩展名是否比 php 和 aspx 更好或者少扩展名的 url 比全部更好该扩展对排名和所有 SEO 影响不大您页面的扩展名可能不一定表明内容是如何生成的 PHP 或 ASPX 虽然通常具有动态内容但始
Python Flask应用程序无法被网络中的远程计算机访问

我在本地主机上的 python 上运行了一个简单的 Flask Web 应用程序 Web 应用程序在 127 0 0 1 8000 上运行但我无法使用 myHostComputerIPaddress 8000 从网络中的远程计算机访问它
如何使用 Soundcloud api 将流传输到 html5 音频播放器中？

我刚刚开始学习 javascript 作为我的第一次尝试我想创建自定义音频播放器它使用 soundcloud 的 api 作为音乐源到目前为止这就是我的设置
django 中的“管理器”是什么？

我已经阅读了Django官方中的定义文档 https docs djangoproject com en dev topics db managers 我仍然对什么感到困惑Manager does 文档说它们允许您操作数据库表模型但我仍
延迟 HTML5：无效伪类直到第一个事件发生

我最近发现 invalid伪类适用于required页面加载后立即生成表单元素例如如果您有以下代码
如何让 Python 找到 ffprobe？

I have ffmpeg and ffprobe安装在我的 mac macOS Sierra 上并且我已将它们的路径添加到 PATH 中我可以从终端运行它们我正在尝试使用ffprobe使用以下代码获取视频文件的宽度和高度 impor
单击 selenium 中的链接时循环遍历表格的行（python）

示例页面源代码如下所示 div class div1 table class foot market tbody td class today name td tbody tbody td class today name td tbody
在哪里可以找到Python内置序列类型的时间和空间复杂度

我一直无法找到此信息的来源无法亲自查看 Python 源代码来确定这些对象是如何工作的有谁知道我可以在网上找到这个吗结帐时间复杂度 http wiki python org moin TimeComplexitypy dot org
使用Python的线程模块调用ctypes函数比使用多处理更快？

我一生都无法找出这个问题的答案我编写了一个可以执行数百次繁重计算的脚本我有一个绝妙的主意将这些计算任务编写为 C 然后使用 Python 的 ctypes 与它们交互我心想我什至可以使用并行性进一步优化它我最初的方法是使用线程
编辑时可以在文本框控件内使用 Angular 的管道格式化程序吗？

我已经声明了一种将大数字分成三位数组的格式并像这样经常使用它 div Huge number i am huge make threesome div 现在有一个对相应功能的请求但在像这样的输入控件中实现

随机推荐

蓝牙适配器不会停止扫描 BLE 设备

在我的应用程序中我有开始和停止按钮当用户按下开始时我调用 startScan 方法 bluetoothAdapter getBluetoothLeScanner startScan getLeScanCallback 当用户按停止时
如何循环遍历数据库的表？

我试图使用以下代码循环数据库的表但出现错误java lang UnsupportedOperationException 我什至尝试过cfloop query and other attributes出现错误复杂值无法转换为简单值谁能告
Lua 无法计算 math.abs(29.7 - 30) <= 0.3 [重复]

这个问题在这里已经有答案了今天早上我在我的 Lua 脚本中发现了一个错误这看起来很奇怪这次评估怎么会失败呢示例可以在以下位置进行测试here http www lua org cgi bin demo 第一个例子 if math a
为什么 Golang 强制大括号不在下一行？

correct if true 不正确 if true 为什么要强制执行这种样式它与语言规范有关还是只是因为他们更喜欢一种样式而不是另一种样式为什么有大括号但没有分号为什么我不能将左大括号放在下一行 Go 使用大括号进行语句分组这
格式化numpy数组中的浮点数[重复]

这个问题在这里已经有答案了如果我有一个像这样的 numpy 数组 2 15295647e 01 8 12531501e 00 3 97113829e 00 1 00777250e 01 如何移动小数点并格式化数字这样我最终会得到一个像这
如何将 fgetcsv 与字符串一起使用[重复]

这个问题在这里已经有答案了如何使用fgetcsv其中输入是字符串而不是资源如何将字符串转换为资源 fgetcsv需要文件句柄资源 str 1981 2992 19191 n392 488 299 n some ntext 199 222
无法拉伸内部 StackPanel

使用下面的设置我可以将窗口的整个宽度着色为紫色内部堆叠面板为黄绿色并移至左侧
在 Rails 3.2 中禁用解释

是否可以通过配置全局禁用 Rails 3 2 中的新解释功能我正在使用 activerecord sqlserver adapter 3 2 1 并且 gem 的解释显示计划部分似乎存在一些错误引用自http weblog ruby
从 C# 以编程方式创建文件到 Onedrive？

我想从 C 直接创建 doc docx pptx 或 excel 文件到我的 Onedrive 帐户我已经尝试过这个但它对我不起作用有人知道我做错了什么吗谢谢 public async Task
是否可以部署独立的 .NET Framework 应用程序？

我正在开发一个使用 Net Framework 的 C Net 应用程序但当用户在其计算机上安装该应用程序时遇到问题他们中的一些人只是不知道如何安装 Net Framework 我正在寻找这个问题的解决方案并且我发现了 Net Cor
如何使用变量而不是文件来让任何命令写入？

我在用着curl cookie jar
Python 中的 RAII：__del__ 有什么意义？

乍一看好像是Python的 del 特殊方法提供了与 C 中析构函数几乎相同的优点但根据Python文档 https docs python org 3 4 reference datamodel html https docs pyt
在 Nexus 上使用 nuget 代理时，dotnet 恢复失败

我在内部网络的 Nexus v 3 9 0 01 上有一个 nuget 代理我自己还没有填充本地 Nexus 存储库并且不知道它是如何完成的或是否出现任何问题但是我可以手动上传新包构建在 Bamboo 代理上进行无法连接到公共存
如何将 Scala 脚本拆分为多个文件

作为脚本语言 Scala 是否有某种 include 指令或者有没有办法从其他脚本启动脚本 The scala命令有 load filename命令以交互方式加载 Scala 文件或者 scala命令的 i filename参数可用于预
Android 中的 Viewpager 底部有固定选项卡，每个选项卡中有图标和文本

我想创建以下布局一个带有 viewpager 的活动以及一个选项卡该选项卡保留在活动的底部以指示用户位于 4 个片段中的哪一个并且所选选项卡通过活动颜色突出显示我花了一些时间在网上查看各种资源来添加此选项卡 http devel
更好地使用验证或离开事件来验证文本框数据？

在为 VB NET 文本框编写验证逻辑时最好使用哪个事件处理程序证实 or Leave 据我了解它们是同时发生的然而根据这篇文章 MSDN Control Leave 事件 http msdn microsoft com en u
CSS 网格。隐藏未使用的区域

我有基于已知元素构建的网格模板区域但并非所有元素都可以从数据库中获取如果我没有从数据库中获取某些内容那么我不会渲染 html 元素并且会得到一个带有间隙的空虚线行请参阅附图空行位于蓝色框下方是否可以隐藏未使用的区域或消除其
如何使用 avx 指令将 float 向量转换为短整型？

基本上我如何使用 AVX2 内在函数编写与此等效的内容我们在这里假设result in float属于类型 m256 while result属于类型short int or short int 8 for i 0 i lt 8 i re
关于Javascript注入的问题

我一直在 asp net mvc 学习网站上阅读有关 JavaScript 注入的内容这真是令人大开眼界我什至从未意识到想过有人使用 JavaScript 来进行一些奇怪的屁股注入攻击然而它给我留下了一些悬而未决的问题 First
使用Python请求获取html？

我正在尝试自学一些基本的网络抓取使用 Python 的 requests 模块我能够抓取各种网站的 html 直到我尝试了以下方法 gt gt gt r requests get http www wrcc dri edu WRCCWr

使用Python请求获取html？

使用Python请求获取html？ 的相关文章

随机推荐

热门标签

使用Python请求获取html？的相关文章