在压缩、分块的 HTTP 流到达时高效地读取行

2024-05-08

我编写了一个 HTTP 服务器，它生成由 JSON 结构事件组成的无尽 HTTP 流。类似于 Twitter 的流 API。这些事件由\n（根据服务器发送的事件 http://en.wikipedia.org/wiki/Server-sent_events与内容类型：文本/事件流）并且长度可以变化。

响应是

由于无限流而分块（HTTP 1.1 Transfer-Encoding：分块）
压缩（内容编码：gzip）以节省带宽。

我希望在这些行到达后立即在 Python 中使用它们，并尽可能提高资源效率，而不需要重新发明轮子。

由于我目前正在使用 python-requests，你知道如何使其工作吗？如果您认为 python-requests 在这里无济于事，我完全欢迎替代框架/库。

我当前的实现是基于requests http://requests.readthedocs.org/en/latest/和用途iter_lines(...)接收线路。但是chunk_size参数很棘手。如果设置为1它非常占用 CPU 资源，因为某些事件可能有几千字节。如果设置为大于 1 的任何值，则某些事件会卡住，直到下一个事件到达并且整个缓冲区“被填满”。事件之间的时间可能是几秒钟。我预计chunk_size是某种“要接收的最大字节数”，如 unix 中的recv(...)。相应的手册页显示：

接收调用通常会返回任何可用数据，最多可达请求金额，而不是等待收到全额金额要求。

但这显然不是请求库中的工作方式。他们或多或少将其用作“要接收的确切字节数”。在查看他们的源代码时，我无法确定哪个部分负责。也许是 httplib 的 Response 或 ssl 的 SSLSocket。

作为解决方法，我尝试将服务器上的行填充到块大小的倍数。但是请求库中的块大小用于从压缩的响应流。所以这不会起作用，直到我可以填充我的线条，以便他们压缩的字节序列是块大小的倍数。但这似乎太老套了。

我读过 Twisted 可用于客户端上 http 流的非阻塞、非缓冲处理，但我只找到了在服务器上创建流响应的代码。

它不是requests' 错的是你的iter_lines()呼叫被阻塞。

The Response.iter_lines() https://github.com/kennethreitz/requests/blob/0caa2432123bab2d991e635ce558226d019d7bc7/requests/models.py#L652方法调用Response.iter_content() https://github.com/kennethreitz/requests/blob/0caa2432123bab2d991e635ce558226d019d7bc7/requests/models.py#L614，这称为urllib3's HTTPResponse.stream() https://github.com/kennethreitz/requests/blob/3ef41153498917bc4d01123b2f7a8fbd8e7bcf63/requests/packages/urllib3/response.py#L219，这称为HTTPResponse.read() https://github.com/kennethreitz/requests/blob/3ef41153498917bc4d01123b2f7a8fbd8e7bcf63/requests/packages/urllib3/response.py#L141.

这些调用传递一个块大小，这是传递到套接字的内容self._fp.read(amt)。这是有问题的调用，因为self._fp是一个文件对象，由socket.makefile() http://docs.python.org/2/library/socket.html#socket.socket.makefile（正如所做的那样httplib module http://docs.python.org/2/library/httplib.html）；和这个.read() call will阻塞直到amt读取（压缩）字节。

这个低级套接字文件对象确实支持.readline()调用会更有效地工作，但是urllib3处理压缩数据时不能使用此调用；行终止符在压缩流中将不可见。

很遗憾，urllib3不会打电话self._fp.readline()当响应也没有被压缩时；调用的结构方式很难传递您想要以行缓冲模式而不是块缓冲模式读取的内容。

我必须说 HTTP 并不是用于流事件的最佳协议；我会为此使用不同的协议。我首先想到的是 Websocket，或者是适合您的特定用例的自定义协议。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在压缩、分块的 HTTP 流到达时高效地读取行的相关文章

从数据框中按索引删除行

我有一个数组wrong indexes train其中包含我想从数据框中删除的索引列表 0 63 151 469 1008 要删除这些索引我正在尝试这样做 df train drop wrong indexes train 但是代码失败
python future 和元组解包

实现像使用 future 进行元组解包这样的事情的优雅惯用的方法是什么我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货理想情况下我想写一些类似的东西 a b c ex submit f x y
我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数

随机推荐

是什么使得 java 中的枚举不可实例化？

我知道一个枚举 enum Year First Second Third Fourth 被转换成 final class Year extends Enum
npm 安装旧版本的（typescript 编译器）包

在Windows环境下我有节点 v4 6 0 npm v3 10 8 我的本地打字稿版本是 npm run tsc v 3 10 8 但是我有时想使用我的全局 tsc 因为出于某种原因 gulp 使用全局 tsc 但是当我这样做时 n
Firebase FCM 通知图像不会显示

我在我的项目中使用 FCM 当尝试使用 firebase 撰写通知功能测试传入通知时我将标题正文和图像 URL 添加到消息中它显示了它应该是什么样子丰富的通知与图像但发送给我的通知是正常的没有任何图像这是 firebase
拦截登录/注销ejabberd

我想知道用户何时在自定义模块中的 ejabberd 会话中登录和注销而不更改 ejabberd 代码我需要它因为我必须在用户登录时执行一些操作并清理用户注销时执行的操作另外在某些情况下我需要能够注销用户那么有没有办法扩展某些
VSO：具有分层区域结构的单一项目？

历史上我们一直有各自的VSO正在开发的每个逻辑项目的项目这一点尤其重要因为我们需要为每个项目都有单独的积压工作每个项目都有自己的产品负责人我们有一个由大约 10 名开发人员组成的团队他们在这些项目之间工作超过 2 周的冲刺在使用
Java中构造函数中的长参数列表[重复]

这个问题在这里已经有答案了可能的重复重构具有太多 6 个以上参数的方法的最佳方法是什么 https stackoverflow com questions 439574 whats the best way to refactor a
在 Ubuntu 10.4 上安装 Python-2.7

我似乎无法正确安装 zlib 我在 Ubuntu10 4 上从源代码安装了 Python 编辑博宾斯和卢珀帮忙了确保安装这些包然后重新编译 Python sudo aptitude 安装 zlib1g dev libreadline6
numpy 内部存储数组的大小吗？

来自 numpy 数组的规范here http docs scipy org doc numpy 1 10 0 reference c api types and structures html c PyArrayObject typede
除了 80 / 443 之外，我还可以为 Kubernetes 入口设置自定义端口来侦听吗？

我并不是说能够路由到特定端口我的意思是实际更改入口侦听的端口这可能吗如何这是在哪里记录的不从Kubernetes 文档 https kubernetes io docs concepts services networking
Heroku 自定义域：sni_endpoint？

当向我的 Heroku 应用程序添加自定义域时我遇到了以下错误结果 Heroku 添加了一个新要求 Beginning November 1 2021 this new parameter will be required sni en
在 MySQL 中查找 varchar 是否包含百分号

找不到这个问题的答案在 MySQL 中如何选择特定列 varchar 包含百分号的行 where col like escape
GridLayout 对齐列内的子项

我有一个GridLayout由 6 个孩子组成它的列数为 2 左列的子列有layout gravity of start end fill horizontal and layout width0dp 这会导致它们填满所有可用空间 Thi
司机下令停车后 Spark 工作人员停下来

基本上主节点也充当从节点之一一旦主服务器上的从服务器完成它就会调用 SparkContext 来停止因此该命令传播到所有从服务器从而在处理过程中停止执行其中一名工作人员登录时出错信息 SparkHadoopMapRedUtil
合并多个列表

鉴于我有一个列表列表 List
OCMock - 尽管是预期的，但仍调用了意外的方法

这是经过测试的代码 if MFMailComposeViewController canSendMail MFMailComposeViewController mailComposeController MFMailComposeView
RabbitMQ 管理插件窗口呈现为空白页面

I have installed Erlang RabbitMQ and configured the management plugin as per the instructions on the website https www r
在多个不同线程之间共享变量

我想在多个线程之间共享一个变量如下所示 boolean flag true T1 main new T1 T2 help new T2 main start help start 我想分享flag在主线程和帮助线程之间这是我创建的两个不
使用 store.findQuery 时捕获 404 错误

我正在使用余烬findQuery方法并想知道如何在没有结果时捕获 404 错误 this store findQuery customer hasProjects true getArchivedProjects archived then
如何在类组件中使用react-redux useSelector？

我是 React 新手正在尝试学习 Redux 我想访问类中的存储但它给了我一个错误我不能在类中使用钩子当我在函数中使用此代码时正如我在 YouTube 教程中看到的那样它可以正常工作我在这里进入商店的柜台 function
在压缩、分块的 HTTP 流到达时高效地读取行

我编写了一个 HTTP 服务器它生成由 JSON 结构事件组成的无尽 HTTP 流类似于 Twitter 的流 API 这些事件由 n 根据服务器发送的事件 http en wikipedia org wiki Server sent

在压缩、分块的 HTTP 流到达时高效地读取行

在压缩、分块的 HTTP 流到达时高效地读取行 的相关文章

随机推荐

热门标签

在压缩、分块的 HTTP 流到达时高效地读取行的相关文章