在压缩、分块的 HTTP 流到达时高效地读取行

2024-05-08

我编写了一个 HTTP 服务器,它生成由 JSON 结构事件组成的无尽 HTTP 流。类似于 Twitter 的流 API。这些事件由\n(根据服务器发送的事件 http://en.wikipedia.org/wiki/Server-sent_events与内容类型:文本/事件流)并且长度可以变化。

响应是

  • 由于无限流而分块(HTTP 1.1 Transfer-Encoding:分块)
  • 压缩(内容编码:gzip)以节省带宽。

我希望在这些行到达后立即在 Python 中使用它们,并尽可能提高资源效率,而不需要重新发明轮子。

由于我目前正在使用 python-requests,你知道如何使其工作吗? 如果您认为 python-requests 在这里无济于事,我完全欢迎替代框架/库。

我当前的实现是基于requests http://requests.readthedocs.org/en/latest/和用途iter_lines(...)接收线路。但是chunk_size参数很棘手。如果设置为1它非常占用 CPU 资源,因为某些事件可能有几千字节。如果设置为大于 1 的任何值,则某些事件会卡住,直到下一个事件到达并且整个缓冲区“被填满”。事件之间的时间可能是几秒钟。 我预计chunk_size是某种“要接收的最大字节数”,如 unix 中的recv(...)。相应的手册页显示:

接收调用通常会返回任何可用数据,最多可达 请求金额,而不是等待收到全额金额 要求。

但这显然不是请求库中的工作方式。他们或多或少将其用作“要接收的确切字节数”。 在查看他们的源代码时,我无法确定哪个部分负责。也许是 httplib 的 Response 或 ssl 的 SSLSocket。

作为解决方法,我尝试将服务器上的行填充到块大小的倍数。 但是请求库中的块大小用于从压缩的响应流。 所以这不会起作用,直到我可以填充我的线条,以便他们压缩的字节序列是块大小的倍数。但这似乎太老套了。

我读过 Twisted 可用于客户端上 http 流的非阻塞、非缓冲处理,但我只找到了在服务器上创建流响应的代码。


它不是requests' 错的是你的iter_lines()呼叫被阻塞。

The Response.iter_lines() https://github.com/kennethreitz/requests/blob/0caa2432123bab2d991e635ce558226d019d7bc7/requests/models.py#L652方法调用Response.iter_content() https://github.com/kennethreitz/requests/blob/0caa2432123bab2d991e635ce558226d019d7bc7/requests/models.py#L614,这称为urllib3's HTTPResponse.stream() https://github.com/kennethreitz/requests/blob/3ef41153498917bc4d01123b2f7a8fbd8e7bcf63/requests/packages/urllib3/response.py#L219,这称为HTTPResponse.read() https://github.com/kennethreitz/requests/blob/3ef41153498917bc4d01123b2f7a8fbd8e7bcf63/requests/packages/urllib3/response.py#L141.

这些调用传递一个块大小,这是传递到套接字的内容self._fp.read(amt)。这是有问题的调用,因为self._fp是一个文件对象,由socket.makefile() http://docs.python.org/2/library/socket.html#socket.socket.makefile(正如所做的那样httplib module http://docs.python.org/2/library/httplib.html);和这个.read() call will阻塞直到amt读取(压缩)字节。

这个低级套接字文件对象确实支持.readline()调用会更有效地工作,但是urllib3处理压缩数据时不能使用此调用;行终止符在压缩流中将不可见。

很遗憾,urllib3不会打电话self._fp.readline()当响应也没有被压缩时;调用的结构方式很难传递您想要以行缓冲模式而不是块缓冲模式读取的内容。

我必须说 HTTP 并不是用于流事件的最佳协议;我会为此使用不同的协议。我首先想到的是 Websocket,或者是适合您的特定用例的自定义协议。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在压缩、分块的 HTTP 流到达时高效地读取行 的相关文章

  • 从数据框中按索引删除行

    我有一个数组wrong indexes train其中包含我想从数据框中删除的索引列表 0 63 151 469 1008 要删除这些索引 我正在尝试这样做 df train drop wrong indexes train 但是 代码失败
  • python future 和元组解包

    实现像使用 future 进行元组解包这样的事情的优雅 惯用的方法是什么 我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货 理想情况下我想写一些类似的东西 a b c ex submit f x y
  • 我怎样才能更多地了解Python的内部原理? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我使用Python编程已经有半年多了 我对Python内部更感兴趣 而不是使用Python开发应用程序
  • 如何迭代按值排序的 Python 字典?

    我有一本字典 比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键 换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
  • python 模拟第三方模块

    我正在尝试测试一些处理推文的类 我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观 我的想法是模拟实际的 Sixohsix 类 通过随机生成新推文或从数据库检索它们来模拟推文的
  • Django 模型在模板中不可迭代

    我试图迭代模型以获取列表中的第一个图像 但它给了我错误 即模型不可迭代 以下是我的模型和模板的代码 我只需要获取与单个产品相关的列表中的第一个图像 模型 py class Product models Model title models
  • Pandas 中允许重复列

    我将一个大的 CSV 包含股票财务数据 文件分割成更小的块 CSV 文件的格式不同 像 Excel 数据透视表之类的东西 第一列的前几行包含一些标题 公司名称 ID 等在以下列中重复 因为一家公司有多个属性 而不是一家公司只有一栏 在前几行
  • 为什么Python的curses中escape键有延迟?

    In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
  • Pandas 数据帧到 numpy 数组 [重复]

    这个问题在这里已经有答案了 我对 Python 很陌生 经验也很少 我已经设法通过复制 粘贴和替换我拥有的数据来使一些代码正常工作 但是我一直在寻找如何从数据框中选择数据 但无法理解这些示例并替换我自己的数据 总体目标 如果有人真的可以帮助
  • 切片 Dataframe 时出现 KeyError

    我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
  • 以同步方式使用 FastAPI,如何获取 POST 请求的原始正文?

    在中使用 FastAPIsync not async模式 我希望能够接收 POST 请求的原始 未更改的正文 我能找到的所有例子都显示async代码 当我以正常同步方式尝试时 request body 显示为协程对象 当我通过发布一些内容来
  • python suds SOAP 请求中的名称空间前缀错误

    我使用 python suds 来实现客户端 并且在发送的 SOAP 标头中得到了错误的命名空间前缀 用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件 请参见下文 问题出在函数上GetRecord
  • 使用 OLS 回归预测未来值(Python、StatsModels、Pandas)

    我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
  • Numpy 过滤器平滑零区域

    我有一个 0 及更大整数的 2D numpy 数组 其中值代表区域标签 例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
  • 在 pytube3 中获取 youtube 视频的标题?

    我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题 这是我的代码 from pytube import YouTube yt YouTube link print yt titl
  • 使用yield 进行字典理解

    作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
  • Tkinter - 浮动窗口 - 调整大小

    灵感来自this https stackoverflow com a 22424245 13629335问题 我想为我的根窗口编写自己的调整大小函数 但我刚刚注意到我的代码显示了一些性能问题 如果你快速调整它的大小 你会发现窗口没有像我希望
  • Ubuntu 上的 Python 2.7

    我是 Python 新手 正在 Linux 机器 Ubuntu 10 10 上工作 它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能 有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是 如
  • 无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

    我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求 到目前为止 这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
  • 您可以将操作直接应用于map/reduce/filter 中的参数吗?

    map and filter通常可以与列表理解互换 但是reduce并不那么容易被交换map and filter 此外 在某些情况下我仍然更喜欢函数语法 但是 当您需要对参数本身进行操作时 我发现自己正在经历语法体操 最终必须编写整个函数

随机推荐

  • 是什么使得 java 中的枚举不可实例化?

    我知道一个枚举 enum Year First Second Third Fourth 被转换成 final class Year extends Enum
  • npm 安装旧版本的(typescript 编译器)包

    在Windows环境下 我有 节点 v4 6 0 npm v3 10 8 我的本地打字稿版本是 npm run tsc v 3 10 8 但是 我有时想使用我的全局 tsc 因为出于某种原因 gulp 使用全局 tsc 但是当我这样做时 n
  • Firebase FCM 通知图像不会显示

    我在我的项目中使用 FCM 当尝试使用 firebase 撰写通知 功能测试传入通知时 我将标题 正文和图像 URL 添加到消息中 它显示了它应该是什么样子 丰富的通知与图像 但发送给我的通知是正常的 没有任何图像 这是 firebase
  • 拦截登录/注销ejabberd

    我想知道用户何时在自定义模块中的 ejabberd 会话中登录和注销 而不更改 ejabberd 代码 我需要它 因为我必须在用户登录时执行一些操作 并清理用户注销时执行的操作 另外 在某些情况下我需要能够注销用户 那么 有没有办法扩展某些
  • VSO:具有分层区域结构的单一项目?

    历史上我们一直有各自的VSO正在开发的每个逻辑项目的项目 这一点尤其重要 因为我们需要为每个项目都有单独的积压工作 每个项目都有自己的产品负责人 我们有一个由大约 10 名开发人员组成的团队 他们在这些项目之间工作超过 2 周的冲刺 在使用
  • Java中构造函数中的长参数列表[重复]

    这个问题在这里已经有答案了 可能的重复 重构具有太多 6 个以上 参数的方法的最佳方法是什么 https stackoverflow com questions 439574 whats the best way to refactor a
  • 在 Ubuntu 10.4 上安装 Python-2.7

    我似乎无法正确安装 zlib 我在 Ubuntu10 4 上从源代码安装了 Python 编辑 博宾斯和卢珀帮忙了 确保安装这些包 然后重新编译 Python sudo aptitude 安装 zlib1g dev libreadline6
  • numpy 内部存储数组的大小吗?

    来自 numpy 数组的规范here http docs scipy org doc numpy 1 10 0 reference c api types and structures html c PyArrayObject typede
  • 除了 80 / 443 之外,我还可以为 Kubernetes 入口设置自定义端口来侦听吗?

    我并不是说能够路由到特定端口 我的意思是实际更改入口侦听的端口 这可能吗 如何 这是在哪里记录的 不 从Kubernetes 文档 https kubernetes io docs concepts services networking
  • Heroku 自定义域:sni_endpoint?

    当向我的 Heroku 应用程序添加自定义域时 我遇到了以下错误 结果 Heroku 添加了一个新要求 Beginning November 1 2021 this new parameter will be required sni en
  • 在 MySQL 中查找 varchar 是否包含百分号

    找不到这个问题的答案 在 MySQL 中 如何选择特定列 varchar 包含百分号 的行 where col like escape
  • GridLayout 对齐列内的子项

    我有一个GridLayout由 6 个孩子组成 它的列数为 2 左列的子列有layout gravity of start end fill horizontal and layout width0dp 这会导致它们填满所有可用空间 Thi
  • 司机下令停车后 Spark 工作人员停下来

    基本上 主节点也充当从节点之一 一旦主服务器上的从服务器完成 它就会调用 SparkContext 来停止 因此该命令传播到所有从服务器 从而在处理过程中停止执行 其中一名工作人员登录时出错 信息 SparkHadoopMapRedUtil
  • 合并多个列表

    鉴于我有一个列表列表 List
  • OCMock - 尽管是预期的,但仍调用了意外的方法

    这是经过测试的代码 if MFMailComposeViewController canSendMail MFMailComposeViewController mailComposeController MFMailComposeView
  • RabbitMQ 管理插件窗口呈现为空白页面

    I have installed Erlang RabbitMQ and configured the management plugin as per the instructions on the website https www r
  • 在多个不同线程之间共享变量

    我想在多个线程之间共享一个变量 如下所示 boolean flag true T1 main new T1 T2 help new T2 main start help start 我想分享flag在主线程和帮助线程之间 这是我创建的两个不
  • 使用 store.findQuery 时捕获 404 错误

    我正在使用余烬findQuery方法并想知道如何在没有结果时捕获 404 错误 this store findQuery customer hasProjects true getArchivedProjects archived then
  • 如何在类组件中使用react-redux useSelector?

    我是 React 新手 正在尝试学习 Redux 我想访问类中的存储 但它给了我一个错误 我不能在类中使用钩子 当我在函数中使用此代码时 正如我在 YouTube 教程中看到的那样 它可以正常工作 我在这里进入商店的柜台 function
  • 在压缩、分块的 HTTP 流到达时高效地读取行

    我编写了一个 HTTP 服务器 它生成由 JSON 结构事件组成的无尽 HTTP 流 类似于 Twitter 的流 API 这些事件由 n 根据服务器发送的事件 http en wikipedia org wiki Server sent