在 Google App Engine 中，当我将文件写入 blobstore 时，如何减少内存消耗而不超过软内存限制？

2024-04-26

我正在使用 blobstore 来备份和恢复 csv 格式的实体。这个过程对于我所有的小型模型来说都运行良好。然而，一旦我开始处理具有超过 2K 实体的模型，我就超出了软内存限制。我一次只获取 50 个实体，然后将结果写入 blobstore，因此我不清楚为什么我的内存使用量会增加。我可以通过增加下面传递的“限制”值来可靠地使该方法失败，这会导致该方法运行更长的时间以导出更多实体。

关于如何优化此过程以减少内存消耗有什么建议吗？
此外，生成的文件大小仅为

简化示例：

file_name = files.blobstore.create(mime_type='application/octet-stream')
with files.open(file_name, 'a') as f:
    writer = csv.DictWriter(f, fieldnames=properties)
    for entity in models.Player.all():
      row = backup.get_dict_for_entity(entity)
      writer.writerow(row)

产生错误：总共处理 7 个请求后，超出了软专用内存限制，达到 150.957 MB

简化示例2：

问题似乎出在 python 2.5 中使用文件和 with 语句。考虑到 csv 内容，我只需尝试将 4000 行文本文件写入 blobstore 就可以重现几乎相同的错误。

from __future__ import with_statement
from google.appengine.api import files
from google.appengine.ext.blobstore import blobstore
file_name = files.blobstore.create(mime_type='application/octet-stream')   
myBuffer = StringIO.StringIO()

#Put 4000 lines of text in myBuffer

with files.open(file_name, 'a') as f:
    for line in myBuffer.getvalue().splitlies():
        f.write(line)

files.finalize(file_name)  
blob_key = files.blobstore.get_blob_key(file_name)

产生错误：总共处理 24 个请求后，超出了软专用内存限制，达到 154.977 MB

原来的：

def backup_model_to_blobstore(model, limit=None, batch_size=None):
    file_name = files.blobstore.create(mime_type='application/octet-stream')
    # Open the file and write to it
    with files.open(file_name, 'a') as f:
      #Get the fieldnames for the csv file.
      query = model.all().fetch(1)
      entity = query[0]
      properties = entity.__class__.properties()
      #Add ID as a property
      properties['ID'] = entity.key().id()

      #For debugging rather than try and catch
      if True:
        writer = csv.DictWriter(f, fieldnames=properties)
        #Write out a header row
        headers = dict( (n,n) for n in properties )
        writer.writerow(headers)

        numBatches = int(limit/batch_size)
        if numBatches == 0:
            numBatches = 1

        for x in range(numBatches):
          logging.info("************** querying with offset %s and limit %s", x*batch_size, batch_size)
          query = model.all().fetch(limit=batch_size, offset=x*batch_size)
          for entity in query:
            #This just returns a small dictionary with the key-value pairs
            row = get_dict_for_entity(entity)
            #write out a row for each entity.
            writer.writerow(row)

    # Finalize the file. Do this before attempting to read it.
    files.finalize(file_name)

    blob_key = files.blobstore.get_blob_key(file_name)
    return blob_key

错误在日志中看起来像这样

......
2012-02-02 21:59:19.063
************** querying with offset 2050 and limit 50
I 2012-02-02 21:59:20.076
************** querying with offset 2100 and limit 50
I 2012-02-02 21:59:20.781
************** querying with offset 2150 and limit 50
I 2012-02-02 21:59:21.508
Exception for: Chris (202.161.57.167)

err:
Traceback (most recent call last):
  .....
    blob_key = backup_model_to_blobstore(model, limit=limit, batch_size=batch_size)
  File "/base/data/home/apps/singpath/163.356548765202135434/singpath/backup.py", line 125, in backup_model_to_blobstore
    writer.writerow(row)
  File "/base/python_runtime/python_lib/versions/1/google/appengine/api/files/file.py", line 281, in __exit__
    self.close()
  File "/base/python_runtime/python_lib/versions/1/google/appengine/api/files/file.py", line 275, in close
    self._make_rpc_call_with_retry('Close', request, response)
  File "/base/python_runtime/python_lib/versions/1/google/appengine/api/files/file.py", line 388, in _make_rpc_call_with_retry
    _make_call(method, request, response)
  File "/base/python_runtime/python_lib/versions/1/google/appengine/api/files/file.py", line 236, in _make_call
    _raise_app_error(e)
  File "/base/python_runtime/python_lib/versions/1/google/appengine/api/files/file.py", line 179, in _raise_app_error
    raise FileNotOpenedError()
FileNotOpenedError

C 2012-02-02 21:59:23.009
Exceeded soft private memory limit with 149.426 MB after servicing 14 requests total

您最好不要自己进行批处理，而只是迭代查询。迭代器将选择一个足够的批量大小（可能是 20）：

q = model.all()
for entity in q:
    row = get_dict_for_entity(entity)
    writer.writerow(row)

这可以避免以不断增加的偏移量重新运行查询，这种方式很慢并且会导致数据存储中出现二次行为。

关于内存使用的一个经常被忽视的事实是，与实体的序列化形式相比，实体的内存中表示可以使用 30-50 倍的 RAM；例如磁盘上 3KB 的实体可能会使用 RAM 中的 100KB。（确切的膨胀系数取决于许多因素；如果您有大量具有长名称和小值的属性，情况会更糟，对于具有长名称的重复属性更糟糕。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googleappengine

在 Google App Engine 中，当我将文件写入 blobstore 时，如何减少内存消耗而不超过软内存限制？的相关文章

删除 Google App Engine 中某种类型的所有数据

我想清除 Google App Engine 中特定类型的所有数据是什么最好的方法来做到这一点我写了一个删除脚本 hack 但是由于数据太多几百条记录后超时我目前正在通过密钥删除实体而且似乎更快 from google appe
部署 GAE Flex 服务时出错

Using gcloud app deploy部署 Flex 服务 SDK 版本 127 0 0 时出现以下错误错误 gcloud app deploy 错误响应 3 Docker 映像 us gcr io my project nam
在 App Engine 标准 python 中使用 Google Stackdriver 日志时出错

我的堆栈谷歌应用程序引擎标准Python 2 7 Goal 要在 Google Stackdriver Logging 中创建命名日志 https console cloud google com logs viewer https co
GAE 30 个子查询限制的解决方法

我正在编写一个新闻应用程序我想让我的用户从包含数十个约 60 个来源卫报泰晤士报的列表中选择他们最喜欢的新闻来源我有一个包含索引属性源的新闻实体我正在寻找一种方法可以让我绕过 App Engine 施加的 30 个子查
GAE 中的拉取队列是否表现出一致的 FIFO 行为？

App Engine 中的推送队列通常是先进先出队列 https developers google com appengine docs java taskqueue overview push The Rate of Task Exec
在 Google App Engine 中，当我将文件写入 blobstore 时，如何减少内存消耗而不超过软内存限制？

我正在使用 blobstore 来备份和恢复 csv 格式的实体这个过程对于我所有的小型模型来说都运行良好然而一旦我开始处理具有超过 2K 实体的模型我就超出了软内存限制我一次只获取 50 个实体然后将结果写入 blobstor
从 Google AppEngine 切换到另一台服务器

目前我正在 Google AppEngine GAE 上构建我的 Java Web 应用程序但由于它们有很多限制我担心我必须从 GAE 切换到运行 Glassfish 或如果需要我可以设置任何其他服务器我还计划运行 Oracle
App Engine 日志中的 /_ah/queue/__deferred__

我有一个使用 Google Cloud SQL 的 App Engine 应用程序并且从我的应用程序的页面中我正在执行一些数据库操作每当访问此页面时它都无法执行所有数据库操作当我进入控制台时我看到的只是 ah queue defe
使用 google app-engine 跨浏览器/服务器重新启动会话持久性

如何使会话在浏览器服务器重新启动后持续存在我正在使用谷歌应用程序引擎每次重新启动浏览器和或服务器时我都会得到一个新的会话 ID String jSessionId this getThreadLocalRequest getSes
Spring、Hibernate 与 google 应用引擎

项目名称 CarpoolDB 我已在另一个应用程序名称 Carpool 中添加了该项目的 jar 运行拼车应用程序时我遇到以下异常项目拼车在这里我遇到异常因为 carpoolService 在作为 Google Web应用程序
如何将maven项目转换为web应用项目？

我想将 Maven 项目转换为 Web 应用程序项目其中应包含 web xml 我正在使用 Eclipse Juno 4 2 和 m2e Eclipse 的 Maven 集成插件软件任何回复将不胜感激 Install m2e wtp
在 AppEngine 上的 iText 中添加新字体时出现 NoClassDefFoundError

我有一个 appengine java 项目其中包括有时创建 pdf pdf 文档有我试图包含的特殊字体 BaseFont bf BaseFont createFont resources AlexBrush Regular ttf Ba
Google App Engine 和 Google Cloud Run 有什么区别？

有谁知道 Google App Engine Flex 和 Google Cloud Run 之间的区别 Thanks Cloud Run 文档信息还不是很丰富但新视频我应该在哪里运行我的代码从 5 个以上计算选项中进行选择 Cloud
错误：在 Google 应用引擎上部署节点 js 时找不到模块“/workspace/server.js”

经过一周的搜索我无法找到适用于我的 Node js 应用程序的应用程序引擎部署问题的解决方案我已经用这个替换了原来的代码Express 的 hello world 示例 https expressjs com en starter he
使用 Google App Engine 的 Mako 模板

我想在 GAE 中使用 Mako 模板而不是 Django 模板我找到了这个帖子http blog pansapiens com 2008 06 24 mako templates in google app engine seems t
gcloud 部署应用程序找不到导入包 - golang

我已经将应用程序的一个版本部署到 GAE 但现在部署新版本时遇到问题当我尝试时gcloud app deploy version VERSION 我收到一堆错误显示远程构建找不到我的导入包 Beginning deployment of
GAE、JPA、XG 事务、实体组过多异常

我知道 GAE 上的 XG 交易有 5 个实体组的限制但我认为我在一项交易中仅使用 3 个组商品类别商品类别但仍然遇到此异常引起原因 java lang IllegalArgumentException 在单个事务中对太多实体组
App Engine 上的 HTTP 到 HTTPS 重定向灵活

我已经遵循了这个答案在谷歌云中从http重定向到https https stackoverflow com questions 37135051 redirect from http to https in google cloud但目前
通过端点 API 将图像读入 protorpc 消息

将用户的图片接收到我的 endpoints method我用吗messages BytesField as in image messages BytesField 1 stuff messages StringField 2 是的这是正
Google App Engine 上的错误 Python 2.7 - 无法使用 CGI 处理程序启用线程安全

我尝试从 Python 2 5 迁移到 Python 2 7 但每次都会遇到相同的错误我在 Python 2 5 中使用 app yaml 文件和一个脚本 main py 做了一个非常简单的测试它工作得很好该脚本只是一个 Hello

随机推荐

为什么namedtuple模块不使用元类来创建nt类对象？

我花了一些时间调查collections namedtuple module https hg python org cpython file 3b920a778484 Lib collections init py l265几周前该模块
Android 10：IMEI 在 API 29 上不再可用。寻找替代方案

我们客户的应用程序的主要功能很大程度上依赖于跟踪客户的设备他们提供与特定手机而不是其所有者绑定的产品使用设备 IMEI 可以实现这一点但随着 Android 10 中的隐私更改他们使其无法访问 https developer a
使用canvg将C3.js SVG可视化到Canvas - 折线图填充黑色矩形，“错误：元素'parsererror'尚未实现”

我正在尝试使用 Canvg 将 SVG 转换为 Canvas 这里是jsfiddle http jsfiddle net sridev24 vcz468f9 我收到一条错误消息错误元素 parsererror 尚未实现我可以理解 ca
当 IDENTITY_INSERT 设置为 OFF 时，无法为标识列插入显式值。（实体框架核心）

当我尝试将新实体添加到数据库中时出现此错误实体名称是DestuffedContainer 该实体及相关实体的定义如下去填充容器 Table DestuffedContainer public class DestuffedContai
允许用户通过点击来选择 UIPickerView 行

我正在尝试使用 UIPicker 视图其行为与 iPhone 代码示例中通常看到的行为有所不同我想要做的是允许用户滚动选择器内容但不自动选择选择器的行使用选择器委托中的 didSelectRow 方法相反我想允许用户触摸选择器的
找不到 project.assets.json - TFS 构建服务器，没有互联网

我们正处于从 VS2013 15 TFS2013 过渡到 VS2017 TFS2017 现场 TFS 而不是 VSTS 的过程中第一个测试解决方案是基于 dotNet Core 1 1 的解决方案多项目 Web 服务该解决方案在原始开
为什么我需要在核心数据项目中使用原始访问器方法？

为什么我需要在核心数据项目中使用原始访问器方法我正在阅读有关核心数据的内容并注意以下内容默认情况下 Core Data 动态地创建高效的公共和原始的获取和设置访问器方法建模属性属性和管理对象的关系课程例如给定一个实体属
如何将 Exif 长/纬度转换为实际值？

我正在尝试从我的一些图片中获取 Exif 数据这些是我收到的纬度和经度值有人可以帮助我并告诉我这些数字的含义吗 DEBUG lat 30 1 12 1 34 1 7588 纬度 DEBUG long 81 1 22 1 41 1 758
如何使用 FormControl 在 Angular 中为 Form 设置值

div class form group div
Symfony 2：添加自定义表单元素，而不是在实体中

我与 Symfony2 合作我想创建一个注册表我不想使用 FOSUserBundle 因此我创建一个实体帐户包含字段用户名密码电子邮件并创建表单 account new Account form this gt create
无论浏览器缩放比例如何，如何保持元素对齐？

我有一个绘制网格的页面如下所示它通过使用绝对定位的 div 来实现这一点每个网格的宽度为 237x237 像素因此第一个网格将放置在顶部 0 左 0 第二个网格将放置在顶部 0 左 237px 第三个网格将放置在顶部 0 左 4
关闭终端后保持express进程存活

我试图在关闭终端后保持进程正常运行是一个带有express的node js项目基本上对于其他进程我通过以下方式保持进程处于活动状态 node server js 我这样就可以完成 SSH 连接并关闭控制台但对于 Express 我
Python / Pandas / Numpy - 直接计算两个日期之间的工作日数（不包括假期）

有没有比下面更好更直接的方法来计算这个 1 Set up the start and end date for which you want to calculate the number of business days excludi
html / javascript / php 中 json 响应的折线图

我正在尝试创建一个单线图html javascript 中的 json 响应 sql 我试图创建的是一个图表其中只有onetag name 行在以下情况下 phone 4 此行应表示所有 json 字符串的所有值和日期时间 JSON 响
保持轮播中的图像长宽比

我正在使用 Bootstrap 创建轮播我有大图像因此当屏幕小于图像时不会保留比例我怎样才能改变这一点这是我的代码 carousel item height 500px carousel img position absolute
如何通过 Python/C API 将 Python 实例传递给 C++

我通过使用 SWIG 2 0 包装接口来使用 Python 2 7 扩展我的库并且有一个我想在其中创建访问者的图形对象在 C 中接口如下所示 struct Visitor virtual void OnStateBegin 0 vir
对 pickle.dump 中的“OSError: [Errno 22] Invalid argument”有什么想法吗？

下面是我的代码在此代码中我尝试将 p 文件拆分并规范化为具有不同规范的文件然而似乎分割正在工作但我无法使用 pickle dump 将它们保存到 p 文件中对于这个错误有什么建议吗 import numpy as np impo
嵌套和分段的脆皮布局

TLDR 问题如何使用分段不确定这是否被视为内联布局和多个模型有些相关有些不相关制作一个脆脆的表单我正在尝试理解 Django 中的几件事表单表单集嵌套表单和脆皮我已经研究了一段时间了感觉我已经很接近了只是需要有
Java String.format() 与 HALF_EVEN 舍入

我想用String format 将一些 BigDecimal 格式化为字符串的一部分 Example String getPrice String pattern BigDecimal price basePrice multiply B
在 Google App Engine 中，当我将文件写入 blobstore 时，如何减少内存消耗而不超过软内存限制？

我正在使用 blobstore 来备份和恢复 csv 格式的实体这个过程对于我所有的小型模型来说都运行良好然而一旦我开始处理具有超过 2K 实体的模型我就超出了软内存限制我一次只获取 50 个实体然后将结果写入 blobstor

在 Google App Engine 中，当我将文件写入 blobstore 时，如何减少内存消耗而不超过软内存限制？

原来的：

在 Google App Engine 中，当我将文件写入 blobstore 时，如何减少内存消耗而不超过软内存限制？ 的相关文章

随机推荐

热门标签

在 Google App Engine 中，当我将文件写入 blobstore 时，如何减少内存消耗而不超过软内存限制？的相关文章