在 App Engine 数据存储区中查找重复项

2024-03-28

我的数据存储区中有一些重复的元素(不是整行,而是其中的大部分字段)。

找到他们的最佳方式是什么?

我有重复的整数和字符串字段(以防比较一个比另一个更快)。

Thanks!


一种愚蠢但快速的方法是获取您关心的字段,将它们连接为长字符串并将它们存储为DB_Unique引用原始实体的实体。每次你这样做DB_Unique.get_or_insert()您应该验证引用是否指向正确的原始实体,否则,您将获得重复的实体。这可能应该在地图缩小 http://code.google.com/p/appengine-mapreduce/.

就像是:

class DB_Unique(db.Model):
  r = db.ReferenceProperty()

class DB_Obj(db.Model):
  a = db.IntegerProperty()
  b = db.StringProperty()
  c = db.StringProperty()

# executed for each DB_Obj...
def mapreduce(entity):
  key = '%s_%s_%s' % (entity.a,entity.b,entity.c)
  res = DB_Unique.get_or_insert(key, r=entity)
  if DB_Unique.r.get_value_for_datastore(res) != entity.key():
    # we have a possible collision, verify and delete?
    # out two entities are res and entity

有一些边缘情况可能会出现,例如,如果您有两个实体,b 和 c 分别等于 ('a_b', '') 和 ('a','b_'),那么串联是 ' a_b_' 两者都适用。因此,请使用您知道字符串中不存在的字符来代替“_”,或者使用DB_Unique.r成为参考文献列表并比较所有参考文献。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 App Engine 数据存储区中查找重复项 的相关文章

  • 适用于新应用程序引擎应用程序的 Python 3.7 本地开发服务器选项

    我有一个在标准 Python3 运行时上部署和运行的应用程序引擎应用程序 我还可以使用普通命令在本地运行它 例如flask run 但我无法像在 2 7 运行时中运行应用程序那样运行它dev appserver py 我正在使用最新的gcl
  • 使用 Amazon Web Services S3 与 Google Application Engine 进行存储的相对优势

    与 Google Application Engine 相比 您认为 Amazon Web Services S3 的优点和缺点是什么 在我询问时 两者的每 GB 成本大致相似 我没有看到任何关于服务质量的普遍投诉 所以我认为使用哪一个的决
  • 同步框架服务器到服务器同步

    I have kind of a such scenario source microsoft com http i msdn microsoft com bb887608 Figure3 en us png Here i need to
  • Laravel 从模型插入数百万数据库行

    我有一个文本文件 其中包含逗号分隔的值 表示字符串中每一行的数据集 它们大约有 200 万个 我想解析字符串 根据它们创建 Laravel 模型 并将每个模型作为一行存储在我的数据库中 此时 我有一个类逐行解析文件并为每个文件创建一个模型
  • django OneToOne反向访问

    我有这些简单的课程 Class A models Model Class Meta models Model a models OnetoOneField A primary key True width models IntegerFie
  • UIWebView 和 NSURLConnection 共享 cookie 存储吗?

    我正在构建一个使用 Google App Engine 作为后端的 iOS 应用程序 Google 提供了一个存储身份验证 cookie 的 HTML 登录站点 如果我在 UIWebView 中访问该站点并且用户登录 那么这些 cookie
  • 在 SQL 数据库中,一对一关系何时应位于同一个表中,何时应位于不同的表中?

    任何人都可以提供一些示例 说明在 SQL 数据库中什么时候在同一个表上保留一对一关系是更好的选择 而什么时候将它们放在单独的表上更有意义 当您有多个实体 它们都必须能够充当另一个实体的外键 并且 几个实体 既有公共属性又有唯一属性 并且您希
  • Google App Engine 支持 xlrd 吗?

    我在 Google 网上论坛和这里看到过帖子提到在 Google App Engine 中使用 xlrd 如何在 Appengine 上使用 xlrd 读取 excel 文件 https stackoverflow com question
  • 运行 GWT 的“MobileWebApp”示例时出现“HTTP 错误:500 无领域”

    我正在尝试运行 GWT 2 4 示例应用程序 MobileWebApp 当我尝试通过 Eclipse 在开发模式下运行应用程序时 出现 500 No Realm 错误 我知道这是一个身份验证问题 我不熟悉 Google App Engine
  • 如何获取 App Engine 前端服务器的实例 ID?

    有没有办法直接向该服务器发送请求 实际上有一种方法 它可以将新数据推送到应用程序的所有实例 from google appengine api import modules instance id modules get current i
  • 将仅限 HTTPS 的自定义域正确分配给 flex env

    将自定义域映射到 Google App Engine 项目的正确方法是什么 我已经添加了自定义域 设置了所有 DNS 记录等 并且它正在工作 但如何仅强制执行 HTTPS 就像生成的自定义域一样 从阅读周围many我看过的帖子secure
  • 我可以使用 Android Account Manager 获取 App Engine 的 OAuth 访问令牌吗?

    我的 AppEngine 服务器有 Android 客户端 两者都使用 Google 帐户 我想使用 AccountManager 来获取访问令牌对于 OAuth 到目前为止我正在使用 ClientLogin 但我想切换到 OAuth 在
  • 数据库查询的内部实现

    根据我的经验 我使用过很多查询 例如select order by wheremysql sql server oracle 等中的子句等 有那么一刻我想 1 内部是如何编写来实现上述查询的 2 他们使用哪种语言 3 那是编程语言吗 如果是
  • 在 SSIS 中插入新记录之前如何清空目标表?

    我使用 SSIS 生成和转换新数据 以便以后在新系统中使用 每次运行 SSIS 包时我都会遇到问题 它不断将新记录插入到我的目标表中 如何先清空目标表 OLE DB Destination 然后插入新生成的记录 目前此问题的解决方法是执行d
  • 如何将maven项目转换为web应用项目?

    我想将 Maven 项目转换为 Web 应用程序项目 其中应包含 web xml 我正在使用 Eclipse Juno 4 2 和 m2e Eclipse 的 Maven 集成 插件软件 任何回复将不胜感激 Install m2e wtp
  • MySQL ORDER BY rand(),名称 ASC

    我想获取一个包含 1000 个用户的数据库并随机选择 20 个用户 ORDER BY rand LIMIT 20 然后按名称对结果集进行排序 我想出了以下查询not像我希望的那样工作 SELECT FROM users WHERE 1 OR
  • 使用带有 ORDER 子句的 AES_DECRYPT 在 MySQL 中返回 BLOB 数据

    我正在创建一个系统 用户可以在其中通过 PHP 和 MySQL 数据库存储消息 并且我使用 MySQL AES ENCRYPT 函数来加密这些消息的内容 这是我的posts table CREATE TABLE IF NOT EXISTS
  • 数据库优化命令

    在用户可以下订单的数据库中 最好有一个包含地址的新表 还是每个订单的标题中都有地址数据 这不仅涉及用户 及其地址 还涉及您所销售产品的价格和其他信息 这些信息可能会发生变化after订单已下达 但订单本身必须保持完整 一般来说 有两种方法
  • 我如何(或可以)在多个列上选择 DISTINCT?

    我需要从表中检索所有行 其中两列的组合都不同 因此 我希望同一天没有任何其他销售的所有销售都以相同的价格进行 基于日期和价格的唯一销售将更新为活动状态 所以我在想 UPDATE sales SET status ACTIVE WHERE i
  • 我怎样才能找出MySQL中的默认字符集/排序规则[重复]

    这个问题在这里已经有答案了 我在 Ubuntu 18 04 上使用 MySQL 和 MySQL Workbench 8 0 当我创建字符串类型的列时 我将字符集 排序规则保留为默认值 在 MySQL Workbench 中 它只是告诉我就是

随机推荐

  • 如何制作单独的角材料步进器标题和内容?

    我正在用有角度的材料做一个垂直步进器 问题是这个步进器将每个步骤的内容放在步骤标题下方 因此如果有很多步骤 它看起来会很糟糕 因为你必须滚动 我的想法是将标题与内容分开 这样它看起来更像是侧导航 但具有角度材质功能 这是我现在所拥有的 内容
  • 从 Java Applet 调用 Javascript 函数

    我在 HTML 页面中有一个 Java Applet 我需要让小程序调用某个 Javascript 函数来通知 HTML 页面某些事件 我目前调用 JavaScript 函数的方式是 getAppletContext showDocumen
  • Clojure 哈希映射到 xml

    我正在尝试将以下映射转换为 xml 任何具有向量值的键都需要为向量中的每个元素重复 xml 中的键 use clojure xml defn map to xml2 k v cond nil k for e a v tag e conten
  • 使用 DatabaseMetaData 检索 mysql 表注释

    因此 我正在将 Vaadin Java Web 框架用于需要编辑表的功能的项目 Vaadin 提供了一种获取方法Connection对象来自SimpleJDBCConnectionPool 这是 API https vaadin com a
  • XSLT - 从模板中删除空格

    我正在使用 XML 存储一个小型联系人列表 并尝试编写一个 XSL 模板将其转换为 CSV 文件 我遇到的问题是输出中存在空格 输出 Friend John Smith Home 123 test Sebastopol California
  • 在 Matlab 中向量化数组索引/取子集

    假设我有一个长数据向量 y 加上一些索引 我想在每个索引周围提取一个简短的片段或窗口 例如 假设我想构建一个矩阵 其中每个小于 3 的值之前包含 64 个样本 之后包含 64 个样本 这在 for 循环中很简单 WIN SIZE 64 Sa
  • 监视器应该等待什么对象?

    使用 Monitor Wait object obj 时 应该对 obj 使用什么 在这个article http www yoda arachsys com csharp threads 我正在阅读 NET 中的多线程 作者实例化了一个新
  • ASP.NET Core 1.0 - MVC 6 - Cookie 过期

    UPDATE 这绝对不是 RC1 中的错误 cookie 设置与默认的 UserManager 和 UserStore 一起使用 因此它一定与我的 UserManager UserStore 有关 我已经监督过 我基本上使用这里的实现 ht
  • 对数据帧的每一行应用函数并同时递增计数器

    我知道我可以使用apply 在数据帧的每一行上应用函数 如下所示 import pandas as pd df pd DataFrame Name A B C Number 1 2 3 def func row pass df apply
  • 将 Azure 网站连接到 Xero 合作伙伴应用程序

    我正在将我的应用程序与 Xero 集成 这需要两个证书 我在以下人员的帮助下将它们上传到 Azurethis https azure microsoft com en us blog using certificates in azure
  • HTML 使文本可点击,而不使其成为超链接

    我想添加这样的功能 可以选择单击某些 HTML 文本并执行正确的 JavaScript 代码 我怎样才能做到这一点 对于语义我会使用
  • AWS ECR CF 模板失败并显示“提供的存储库策略无效”

    此 CF 模板失败 MyECSrepo Type AWS ECR Repository Properties RepositoryName Ref RepoName RepositoryPolicyText Version 2012 10
  • Shiny - 到 mainPanel 的多个输出

    Shiny 似乎只接受任何提供给的最终输出mainPanel in ui R An 较早的问题 https stackoverflow com questions 22996434 adding more than one graph to
  • 在 Firefox 中使用 -moz-transform 选择框焦点错误

    我注意到 如果我在 Firefox 中对选择框焦点 即 select focus 应用变换 它首先会聚焦选择框 然后您必须再次单击选择框才能真正下拉 还有其他人经历过这个吗 我尝试在 Mozilla 上寻找错误 但没有发现任何东西 Webk
  • 使用 Rails 包括对儿童的条件

    我有一个模型Parent有很多孩子Child 我想要获取所有父模型并展示每个Child也是父母的 这是 Rails 的经典用例includes方法 据我所知 但是 我无法让 Rails 在不将父模型限制为具有子模型的情况下向子模型添加条件
  • 检查文件是否存在 [BASH]

    如何检查 bash 中文件是否存在 当我尝试这样做时 FILE1 OPTIND 1 if e FILE1 then echo requested file doesn t exist gt 2 exit 1 elif
  • 在php中将文本转换为图像[重复]

    这个问题在这里已经有答案了 我想设置从表单字段获取的文本字符串的样式 然后将其转换为透明的 PNG alpha BG 这可以用 PHP 实现吗 如果是这样 请告诉我如何实现这一点 是的 这很有可能 您将遵循与我们在生成验证码图像时相同的技术
  • WordPress:用于提取特色图像 URL 的 REST API 插件

    我已在博客上安装了 WordPress REST API 插件 我想使用它将博客文章中的内容提取到另一个网站内的面板窗口中 文本内容没问题 但我不确定是否能获取 特色图片 URL 我想要 URL 这样我就可以将其存储在变量中 然后将其用作面
  • 无法连接到任何 X 显示器:Google Colab 运行时

    我现在正在研究分类问题 并尝试在线完成所有工作 而无需访问本地计算机 因此 我已将数据添加到驱动器并将驱动器安装在 Colab 上 现在我想注释我的数据并决定使用LabelImg https github com tzutalin labe
  • 在 App Engine 数据存储区中查找重复项

    我的数据存储区中有一些重复的元素 不是整行 而是其中的大部分字段 找到他们的最佳方式是什么 我有重复的整数和字符串字段 以防比较一个比另一个更快 Thanks 一种愚蠢但快速的方法是获取您关心的字段 将它们连接为长字符串并将它们存储为DB