无需在 Google Cloud 中下载即可读取非常大的 blob（流式传输？）

2023-11-24

请帮忙！

[+] 我有什么：每个桶里都有很多斑点。 Blob 的大小各不相同，从小于千字节到大量千兆字节。

[+] 我正在尝试做的事情：我需要能够流式传输这些 blob 中的数据（例如大小为 1024 的缓冲区或类似的内容），或者在 Python 中按特定大小的块读取它们。关键是我不认为我可以只执行bucket.get_blob()，因为如果blob是TeraByte那么我将无法将它保存在物理内存中。

[+] 我真正想做的事情：解析 blob 内的信息以识别关键字

[+] 我读过的内容：很多关于如何分块写入谷歌云然后使用 compose 将其拼接在一起的文档（一点帮助都没有）

很多关于java的预取函数的文档（需要是python）

谷歌云API

如果有人能指出我正确的方向，我将非常感激！谢谢

因此，我发现这样做的一种方法是在 python 中创建一个类似文件的对象，然后使用 Google-Cloud API 调用 .download_to_file() 来处理该类似文件的对象。

这本质上是流数据。 python代码看起来像这样

def getStream(blob):
    stream = open('myStream','wb', os.O_NONBLOCK)
    streaming = blob.download_to_file(stream)

os.O_NONBLOCK 标志使我可以在写入文件时进行读取。我还没有用真正的大文件测试过这个，所以如果有人知道更好的实现或者看到这个潜在的失败，请发表评论。谢谢！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Stream

googlecloudplatform

Prefetch

无需在 Google Cloud 中下载即可读取非常大的 blob（流式传输？）的相关文章

使用notebook时将jar添加到pyspark

我正在尝试将 mongodb hadoop 与 Spark 集成但不知道如何使 IPython 笔记本可以访问这些 jar 这是我想做的 set up parameters for reading from MongoDB via Had
tkinter 上的“NoneType”对象没有属性“get”错误[重复]

这个问题在这里已经有答案了我最近开始使用 python 3 6 进行编码tkinter并尝试创建我自己的项目repl it 该项目是一个简单的交互式待办事项列表但是我陷入困境并且无法使该功能正常工作该函数只是简单地获取条目并将其添加到
python 打开相对文件夹中所有以.txt结尾的文件

我需要打开并解析文件夹中的所有文件但我必须使用相对路径类似于 input files 我知道在 JavaScript 中你可以使用 path 库来解决这个问题我怎样才能在Python中做到这一点这样您就可以获得路径中的文件列表作为列
Pyjnius导入jar文件

Pyjnius 允许您为 java 类创建 python 包装器例如 Hardware autoclass org myapp Hardware 有没有办法像这样导入现有的 jar 文件语法是什么样的您可以将 jar 添加到 CLAS
gcloud app deploy：此部署有太多文件

当我尝试通过 gcloud 部署我的 GAE 应用程序时出现以下错误 Updating service default failed ERROR gcloud app deploy Error Response 400 This depl
Pandas cut 方法不包括下限

我正在尝试对包含 0 到 100 范围内的年龄的数据帧列进行分箱当我尝试使用垃圾箱来包含零年龄时它不起作用这是一个使用包含我的数据范围的列表的演示 pd cut pd Series range 101 0 24 49 74 100 范
简单 CAE 的问题

看起来简单的 CAE 不适用于 Carvana 数据集我正在尝试对 Carvana 数据集进行简单的 CAE 你可以下载它here https www kaggle com c carvana image masking challeng
如果工作表不存在，Pandas 将工作表附加到工作簿，否则覆盖工作表

我正在使用 pandas 更新现有的 Excel 工作簿当使用ExcelWriter对象我可以覆盖工作表如果存在否则创建一个新工作表吗我的代码附加了新工作表但是当我尝试覆盖现有工作表时它会附加一个名称略有不同的新工作表例如
使用 mechanize 和 beautiful soup 在 python 中进行原始 HTML 与 DOM 抓取

我正在尝试编写一个程序作为示例该程序将从该网页上刮掉最高价格 http www kayak com flights JFK PAR 2012 06 01 2012 07 01 1adults http www kayak com fli
在Python中从整个图像中检测表格部分

我有一张尺寸为 3500x5000 的图像现在我只想检测整个图像中的表格部分如果不能直接进行 OCR 处理则对其进行裁剪和旋转经过所有搜索后我想到了使用裁剪图像中的每个单元格的想法https medium com coinmonk
即使使用标头和 Session 对象，Python requests.get 也会失败并出现 403 禁止

我正在发出 GET 请求来获取 JSON 它在任何设备上的任何浏览器中都可以正常工作但不能通过 python 请求 url https angel co autocomplete new tags params query sci tag
Django - 从时间戳获取不同的日期

我正在尝试按日期过滤用户但直到我可以找到数据库中用户的第一个和最后一个日期为止虽然我可以让我的脚本稍后过滤掉重复项但我想从一开始就使用 Django 来完成此操作distinct因为它显着减少我试过 User objects val
使用 django-profiles 以配置文件形式编辑相关模型

我在用着Django 配置文件 http bitbucket org ubernostrum django profiles wiki Home在我的应用程序中因为它为我提供了一些简单的视图可以帮助我更快地到达我想去的地方但是我有一
在 CSV 文件的最上面一行写入

我有这个sample csv 文件 a 1 apple b 2 banana c 3 cranberry d 4 durian e 5 eggplant 并有以下代码 samplefile open sample csv rb rows s
为什么变量不在循环外更新？

无法弄清楚为什么结果中的第一个键是 abc 而不是我期望的 c 我使用的是Python 3 6 4 数据结构很奇怪因为我删除了不相关的键和值 f replace ab r data abc 1 def 2 ghi 3 jkf 4 lmn
按键合并的两个字典的值的并集

我有两本词典 d1 a x y b k l d2 a m n c p r 如何合并这两个字典以获得这样的结果 d3 a x y m n b k l c p r 当字典的值是简单类型如 int 或 str 时这有效 d3 dict i a
添加条件计数器：基于其他列的值的计数器列

我有一张这样的桌子 id id2 val a red apple a red orange b blue fish c violet beef a yellow banana a black pork 我想根据 id 和 id2 的值创建一
写入文件的正确方法？

我想知道这样做是否有什么区别 var1 open filename w write Hello world 并做 var1 open filename w var1 write Hello world var1 close 我发现没有必要
Pandas 将时间序列数据重新采样为 15 分钟和 45 分钟 - 使用多索引或列

我有一些时间序列数据作为 Pandas 数据框它从每小时过去 15 分钟和过去 45 分钟时间间隔为 30 分钟的观察开始然后将频率更改为每分钟我想对数据进行重新采样以便整个数据帧的频率为每 30 分钟一次 15 点和 45 点
我收到错误：rest_framework.request.WrappedAttributeError：'CSRFCheck'对象没有属性'process_request'

urls py from django conf urls import url from django contrib import admin from django conf import settings from django c

随机推荐

C++ const_cast 使用而不是 C 风格的强制转换

为什么会出现以下情况 const int i0 5 int i1 const cast
用于测量延迟的计时器

在通过 TCP 测量任何协议中的网络延迟收到确认的时间发送消息的时间时您建议使用什么计时器为什么它有什么分辨率还有哪些其他优点缺点可选它是如何工作的可选您不会使用哪种计时器为什么我主要寻找 Windows C 解
在 Play 应用程序中禁用延迟加载

默认情况下您的 Play 应用程序将完全启动编译 Global s onStart调用等仅在您对其进行 http 请求之后有没有办法禁用这种延迟加载并使 Play 应用程序编译代码并在应用程序进程运行后启动 PS 我使用的是Play
我应该将 Java 库的测试支持代码放在哪里

我有一个 Maven 项目它在其他项目中用作库设置非常标准 src main与库代码 src test与测试用例src main 假设我有一个项目foo这取决于这个库 foo还有测试用例帮助编写测试foo对于使用我的库的代码我想给出
测试批处理文件中的文件属性

我正在编写一个批处理文件我需要知道文件是否是只读的我怎样才能做到这一点我知道如何使用 a 修饰符获取它们但我不知道如何处理此输出它给出类似 ra 的内容我如何在批处理文件中解析它像这样的东西应该有效 echo OFF SETL
{} + [] 和 [] + {} 结果如何不同 [重复]

这个问题在这里已经有答案了可能的重复对于 CodeMash 2012 的 Wat 演讲中提到的这些奇怪的 JavaScript 行为有何解释有人可以向我解释一下 javascript 中返回的结果如何不同 0 object Objec
“找不到类型或命名空间‘AjaxControlToolkit’...”的解决方案是什么？

Error 3 The type or namespace name AjaxControlToolkit could not be found in the global namespace are you missing an asse
如何使用 rspec 测试 html 属性？

我的 html 是由 ruby 生成的结果是 a href http gravatar com emails change a 但我想确保该链接在新选项卡中打开 target blank 属性 rspec 测试如下所示 it should
lambda 内的 Java 8 lambda 无法修改外部 lambda 中的变量

假设我有一个List
如何处理来自 blob 存储且数据块中路径较长的多个文件？

我已启用 API 管理服务的日志记录并且日志存储在存储帐户中现在我尝试在 Azure Databricks 工作区中处理它们但在访问这些文件时遇到困难问题似乎是自动生成的虚拟文件夹结构如下所示 insights logs gate
是否有可能让 maven 接受其编译器插件的 maxerrs ？

我有一个项目我负责修复一些错误另一个开发人员负责其他错误错误的数量远远超过一百个当我修复我的错误时她的错误却越来越多我现在看到她有 99 个错误我也有一个而且我想我很快就会发现她有 100 个错误我研究过在 Maven 中
如何将 PEM 编码的椭圆曲线公钥加载到 Bouncy Castle 中？

我有一个 PEM 编码的椭圆曲线公钥我正在尝试将其加载到 Bouncy Castle 中但到目前为止我尝试的一切都失败了这是我尝试加载的密钥的示例 BEGIN PUBLIC KEY MIGbMBAGByqGSM49AgEGBSuBBA
当尝试访问未定义的哈希键时，让 Perl 喊叫

我认为标题是不言自明的很多时候当我尝试访问未定义的哈希键时我会遇到一些小拼写错误并且会得到意想不到的结果我知道我可以添加一些defined每次访问哈希键之前进行检查但我想知道是否有任何更干净的方法来警告此类情况最好的戴夫这
Android：以编程方式触发 Jelly Bean 上 WebView 中的文本选择模式

我需要以编程方式触发 WebView 中的文本选择模式但我使用的代码不适用于 Jelly Bean 我一直在使用以下代码但它不再适用于 Android 4 1 Jelly Bean 因为 Jelly Bean 不再支持 WebView
针对数据库的 JAX-WS 身份验证

我正在实现一个 JAX WS Web 服务该服务将由外部 Java 和 PHP 客户端使用客户端必须使用存储在每个客户端数据库中的用户名和密码进行身份验证最适合使用哪种身份验证机制来确保其他客户端可以使用它对于我们的 Web 服务身
如何从 PrimeFaces 数据表自定义分页器

我要定制素面的数据表分页目前底部显示的页数为 1 of 5 我想显示一页中记录总数中的记录数例如 1 10 of 50 我在下面包含了我的代码但它不起作用有人可以帮忙吗
WCF WebInvoke 响应格式

我有一个 WCF 安静的服务我想允许用户选择他们想要的请求格式我有装饰 OperationContract WebInvoke Method GET ResponseFormat WebMessageFormat Xml BodySty
向 PostgreSQL 多列部分索引添加日期时间约束

我有一个名为的 PostgreSQL 表queries query 其中有很多列其中两列 created and user sid 我的应用程序经常在 SQL 查询中一起使用以确定给定用户在过去 30 天内执行了多少次查询我查询这些统
如何在 Laravel 中编辑和保存自定义配置文件？

我正在 Laravel 4 中创建简单的 Web 应用程序我有用于管理应用程序内容的后端作为后端的一部分我希望有 UI 来管理应用程序设置我希望我的配置变量存储在文件 FOLDER app config customconfig p
无需在 Google Cloud 中下载即可读取非常大的 blob（流式传输？）

请帮忙我有什么每个桶里都有很多斑点 Blob 的大小各不相同从小于千字节到大量千兆字节我正在尝试做的事情我需要能够流式传输这些 blob 中的数据例如大小为 1024 的缓冲区或类似的内容或者在 Python 中按特定大小的块

无需在 Google Cloud 中下载即可读取非常大的 blob（流式传输？）

无需在 Google Cloud 中下载即可读取非常大的 blob（流式传输？） 的相关文章

随机推荐

热门标签

无需在 Google Cloud 中下载即可读取非常大的 blob（流式传输？）的相关文章