如何使用 DynamoDB 进行基本聚合？

2024-01-25

dynamodb 是如何实现聚合的？ Mongodb 和 couchbase 具有地图缩减支持。

假设我们正在建立一个技术博客，用户可以在其中发布文章。并说文章可以被标记。

user
{
    id : 1235,
    name : "John",
    ...
}

article
{
    id : 789,
    title: "dynamodb use cases",
    author : 12345 //userid
    tags : ["dynamodb","aws","nosql","document database"]
}

在用户界面中，我们要显示当前用户标签和相应的计数。

如何实现下面的聚合呢？

{
    userid : 12,
    tag_stats:{
        "dynamodb" : 3,
        "nosql" : 8
    }
}

我们将通过 REST API 提供此数据，并且它将被频繁调用。就像此信息显示在应用程序主页中一样。

我可以考虑提取所有文档并在应用程序级别进行聚合。但我感觉我的读取容量单位即将耗尽
可以使用 EMR、redshift、bigquery、aws lambda 等工具。但我认为这些是用于数据仓库的目的。

我想知道其他更好的方法来实现同样的目标。考虑到成本和响应时间，人们如何实现像这样的动态简单查询，并选择 dynamodb 作为主要数据存储。

长话短说：Dynamo 不支持这一点。它不是为此用例构建的。它旨在实现低延迟的快速数据访问。它根本不支持任何聚合功能。

您有三个主要选择：

将 DynamoDB 数据导出到Redshift http://docs.aws.amazon.com/amazondynamodb/latest/developerguide/RedshiftforDynamoDB.html or EMR Hive http://docs.aws.amazon.com/amazondynamodb/latest/developerguide/EMRforDynamoDB.Tutorial.html。然后您可以对陈旧数据执行 SQL 查询。这种方法的好处是它只消耗 RCU 一次，但您将坚持使用过时的数据。
Use DynamoDB 连接器 https://github.com/awslabs/emr-dynamodb-connector对于 Hive 并直接查询 DynamoDB。同样，您可以编写任意 SQL 查询，但在这种情况下它将直接访问 DynamoDB 中的数据。缺点是它会消耗您执行的每个查询的读取容量。
使用以下方法在单独的表中维护聚合数据DynamoDB 流 http://docs.aws.amazon.com/amazondynamodb/latest/developerguide/Streams.html。例如，您可以将表 UserId 作为分区键，将带有标签和计数的嵌套映射作为属性。每次更新原始数据时，DynamoDB 流都会在主机上执行 Lambda 函数或某些代码来更新聚合表。这是最具成本效益的方法，但您需要为每个新查询实现额外的代码。

当然，您可以在应用程序级别提取数据并将其聚合，但我不建议这样做。除非您有一个小表，否则您需要考虑限制，仅使用部分预配置容量（例如，您希望消耗 20% 的 RCU 进行聚合，而不是 100%），以及如何在多个工作人员之间分配工作。

Redshift 和 Hive 都已经知道如何做到这一点。 Redshift在执行查询时依赖于多个工作节点，而Hive则基于Map-Reduce之上。此外，Redshift 和 Hive 都可以使用 RCU 吞吐量的预定义百分比。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 DynamoDB 进行基本聚合？的相关文章

Dynamodb - 更新对象数组中 JSON 对象的值

以下是存储在 DynamoDb 中的示例项目对象记录我使用 NodeJS 和AWS DynamoDB DocumentClient访问数据库我正在构建一个 PUT 函数来更新数组中 JSON 对象的状态该函数将有权访问该项目的uui
通过数据管道截断 DynamoDb 或重写数据

可以通过数据管道转储 DynamoDb 也可以将数据导入 DynamoDb 导入进展顺利但数据始终附加到 DynamoDb 中已存在的数据目前我找到了扫描 DynamoDb 并逐一或通过批量删除项目的工作示例但无论如何对于大量数据
当我的数据非规范化时（Firebase），如何按上次更新时间对我的聊天组进行排序？

我正在使用 Firebase 和 AngularJS 构建一个聊天应用程序并且我有一个与上的数据结构类似的数据结构此 Firebase 文档页面 https firebase google com docs database web st
是否有一个 nosql 存储也允许存储实体之间的关系？

我正在寻找 nosql 键值存储它还提供存储维护存储实体之间的关系我知道 Google App Engine 的数据存储允许实体之间拥有和不拥有的关系任何流行的 nosql 商店都提供类似的东西吗尽管它们中的大多数都是无模式的但
如何保证mongoDb中数据的完整性？

我正在尝试从关系数据库 mysql 数据迁移到nosql mongoDb 但是我如何确保 mongodb 中的数据完整性我发现我们无法在服务器端做到这一点我应该在应用程序端使用什么来处理数据完整性例如我有两个表 user 和 tas
如何仅通过 DynamoDB 中组合键的一部分进行查询？

比方说我有User正在写评论Products 用户和产品是具有自己的 id 的独立实体 Review是一个复合实体由以下组成userId and productId 我创建了一个表review在 DynamoDB 中同时具有userId
NoSQL：如何根据经纬度检索“房子”？

我有一个用于存储房地产的 NoSQL 系统我在每栋房子的键值存储中拥有的一条信息是longitude and latitude 如果我想检索地理纬度经度框中的所有房屋如下面的 SQL SELECT from houses WHERE
Django 中是否有适用于 Amazon DynamoDB 的良好数据库后端？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想在我的下一个 Django 项目中使用 DynamoDB 我已经找到了将会话数据存储到 Dynam
从 apache Spark 读取/写入 dynamo 数据库 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想知道是否有任何 Java 库支持从 apache Spark Mesos 读取写入 dynamo
如何在Cassandra中搜索不相等的二级索引？

我需要能够仅使用对二级索引执行搜索据我所知 Cassandra 至少需要一个等式索引子句因为它会迭代该等式索引的所有结果是否有任何技巧可以仅使用执行操作至少在概念上这是一个坏主意吗另外有人知道 Cassandra 是否有计
如何在弹性搜索（aws）中存储日期范围数据并搜索范围？

我正在尝试在弹性搜索中存储酒店房间可用性然后我需要搜索从某个日期到另一个日期可用的房间我想出了存储数据以确保可用性的两种方式如下这里可用性字典存储了所有日期每个日期键的值是 true 或 false 代表其可用那天与否 id
如何在dynamo db中定义“Map”AttributeType？

我是新来的AWS Dynamodb I 已读过 https docs aws amazon com amazondynamodb latest APIReference API AttributeValue html我们可以设置Mdynam
Hive ParseException - 无法识别“结束”“字符串”附近的输入

尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
Amazon DynamoDB 使用无服务器修改结构

修改 DynamoDB 表结构的最佳方法是什么由于备份而删除它没有问题我有一个只有哈希键的表我必须为表添加一个排序键当我部署堆栈时我收到此错误错误 CloudFormation 模板无效模板格式错误模板的资源块中存在未解析的
检查 DynamoDB 中是否存在表的最佳方法是什么？

检查 DynamoDb 中是否存在表的最佳方法是什么如果代码是 PHP 语言我将不胜感激要么活跃要么不活跃稍后作为错误代码 400 的各种情况的示例添加检查表是否存在很容易它可以有以下之一表状态 gt 创建活动删除或更新
redis - 使用哈希

我正在使用 redis 为我的 Web 应用程序实现社交流和通知系统我是 redis 的新手我对哈希值及其效率有一些疑问我读过这篇很棒的文章Instagram 帖子 http instagram engineering tumblr
AmazonServiceException：用户无权执行：dynamodb：DescribeTable 状态代码：400；错误代码：AccessDeniedException

我原本以为这个问题是由于区域不匹配造成的但是在更改区域后在尝试此处找到的 Amazon AWS 示例时我仍然遇到以下错误 DynamoDB映射器 https github com awslabs aws sdk android sam
删除对象时删除嵌套字段中的索引

我仍在使用 Firebase 这次我有一个与删除对象相关的问题我有如下结构 users UsErId1 name Jack email email protected cdn cgi l email protection UsErId2
如何在 dynamodb 上获得十亿个对象的不同计数？

获取我的 dynamodb 中存储的不同对象数量的最有效方法是什么例如我的对象有 10 个属性我想根据 3 个属性获得不同的计数如果您需要计数器最好使用 AtomicCounters http docs aws amazon com
当我们有多对多关系时，如何在 firebase 中获取数据

我读了这个问题Firebase 中的多对多关系 https stackoverflow com questions 41527058 many to many relationship in firebase 这里描述了如何在 fireba

随机推荐

使用 Lodash 按属性合并对象数组

我有两个对象数组代表具有标签和值的电子邮件地址 var original label private value email protected cdn cgi l email protection label work value em
Android NDK：第 3 方 Java 库的静态或共享 C++ 运行时

我正在为使用 JNI 的 Android 编译第 3 方 Java 库我阅读了有关在developer android上添加C 支持的相关页面但我仍然对有关C STL运行时的几个问题感到困惑我希望我能在这里澄清 1 我的库无法控制它将
错误-尝试通过方法“X.set_DbConnection(System.Data.Common.DbConnection)”访问方法“Y.get_Settings()”失败

我创建了一个控制台应用程序并使用 EntityFramework 6 2 用于与 MS SQL 连接 MySql Data 8 0 11 和 MySql Data Entity 6 10 7 用于与 MySQL 连接在此应用程序中我想创
android:screenOrientation="sensorPortrait" 不适用于 API +17

我希望我的应用程序能够在纵向和反向纵向模式下工作换句话说我希望它能够在纵向模式下工作并使其可旋转 180 度我正在使用以下代码
如何使用实体框架生成并自动递增 Id

Revised整个帖子我正在尝试通过 Fiddler 发布以下 JSON POST 请求 Username Bob FirstName Foo LastName Bar Password 123 Headline Tuna 但是我收到这个
服务层是否应该访问 HttpContext？

我正在构建一个大致遵循存储库模式的应用程序顶部有一个服务层类似于 Conery 的 MVC Storefront 的早期版本我需要实现一个返回除当前用户之外的所有用户的页面我已经在存储库和服务层上有了 GetUsers 方法所以问
如何在不相关的类之间传递C++回调？

在非升压项目中我有一个类它使用基于特定用户操作按下释放按钮的计时器我希望此类具有通用性因此它需要回调用户定义的操作 TimerClass h typedef void timerCallback void Class Time
您是否可以允许用户回复卡片而不让卡片及其回复文本出现在时间线中？

当我有一个带有回复操作的捆绑包也许单个时间线卡也会发生这种情况并且用户执行该操作例如花生酱和果冻三明治时会出现一个新的时间线卡其中黑色背景上有白色文本玻璃上写着花生酱和果冻三明治当查看游乐场时会出现同一张卡片用户的头像
如何临时切换 AWS CLI 的配置文件？

更新的答案 7 10 2021 对于 AWS CLI v1 请执行以下操作 export AWS DEFAULT PROFILE user2 对于 AWS CLI v2 以下内容将起作用 export AWS PROFILE user2 完
SQLALchemy动态filter_by

我知道您可以通过提供来构建用于 SQLAlchemy 查询的动态过滤器 kwargs to filter by 例如 filters id 123456 amount 232 db session query Transaction fil
简单使用 RSACryptoServiceProvider KeyPassword 失败

我想用密码保护我的 RSA 私钥谁不会但以下 C 失败 SecureString pw new SecureString pw AppendChar x CspParameters prms new CspParameters prms
MySQL 批量插入或更新

有没有办法批量执行查询例如INSERT OR UPDATE在 MySQL 服务器上 INSERT IGNORE 不起作用因为如果该字段已经存在它将简单地忽略它并且不插入任何内容 REPLACE 不起作用因为如果该字段已经存在它将首
将订阅的 Android 应用程序转移到另一个帐户

据我所知谷歌不允许将应用程序所有权通过应用程序订阅从一个开发者帐户转移到另一个开发者帐户我一直在等待他们启用该功能但到目前为止该功能尚不可用也没有预计到达时间我有一个付费应用程序其中包含应用程序内订阅一家公司正在寻求收购我的
泄漏：ByteBuf.release() 在被垃圾收集之前没有被调用。 Spring Reactor TcpServer

我正在使用reactor core 1 1 0 RELEASE reactor net 1 1 0 RELEASE 正在使用netty all 4 0 18 Final reactor spring context 1 1 0 RELEAS
如何修改 git post-update hook 以仅在一个（主）分支上激活？

我在我的网络主机上设置了一个裸存储库并从中克隆了一个存储库只要将更改推送到裸存储库该存储库就会更新 Web 主机上的克隆存储库本质上是生产它位于 public html 目录中我非常严格地遵循了该网站上的说明 http www
设置默认的 apache 虚拟主机

除了选择它找到的第一个配置之外还有其他更好的方法来设置默认的 apache 虚拟主机吗我有一台包含许多域的服务器其中只有一些域配置了 httpd 但默认的虚拟主机被切断例如 aaa com 我真的希望它默认为 mmm com 吗像
已知起点和距离计算第二点

使用纬度和经度值 A 点我尝试计算另一个点 B 距离 A 点 X 米距离 A 点 0 弧度然后显示 B 点的纬度和经度值示例伪代码 PointA Lat x xxxx PointA Lng x xxxx Distance 3 Me
如何在 Python 中打印 Unicode 字符代码？

我想打印 unicode 的字符代码而不是它在 Python 中表示的实际字形例如如果u是 unicode 字符列表 gt gt gt u 0 u u0103 gt gt gt print u 0 我想将字符代码输出为原始字符串 u
设置 Github Commit RSS 源

我正在尝试将我的 github 提交为 RSS feed 但到目前为止我还没有弄清楚我知道私人提要可使用以下语法 https github com username atom token token 但这是用户的活动源我想要我的一个项目
如何使用 DynamoDB 进行基本聚合？

dynamodb 是如何实现聚合的 Mongodb 和 couchbase 具有地图缩减支持假设我们正在建立一个技术博客用户可以在其中发布文章并说文章可以被标记 user id 1235 name John article id 78

如何使用 DynamoDB 进行基本聚合？

如何使用 DynamoDB 进行基本聚合？ 的相关文章

随机推荐

热门标签

如何使用 DynamoDB 进行基本聚合？的相关文章