MongoDB 在索引列上选择 count(distinct x) - 计算大型数据集的唯一结果

2023-12-29

I have gone through several articles and examples, and have yet to find an efficient way to do this SQL query in MongoDB (where there are millions of ~~rows~~ documents)

第一次尝试

（例如，从这个几乎重复的问题 -Mongo相当于SQL的SELECT DISTINCT？ https://stackoverflow.com/questions/5236160/mongo-equivalent-of-sqls-select-distinct)

db.myCollection.distinct("myIndexedNonUniqueField").length

显然我收到了这个错误，因为我的数据集很大

Thu Aug 02 12:55:24 uncaught exception: distinct failed: {
        "errmsg" : "exception: distinct too big, 16mb cap",
        "code" : 10044,
        "ok" : 0
}

第二次尝试

我决定尝试做一个团体

db.myCollection.group({key: {myIndexedNonUniqueField: 1},
                initial: {count: 0}, 
                 reduce: function (obj, prev) { prev.count++;} } );

但我收到了这个错误消息：

exception: group() can't handle more than 20000 unique keys

第三次尝试

我还没有尝试过，但有几个建议涉及mapReduce

e.g.

这个如何在mongodb中进行不同和分组？ https://stackoverflow.com/questions/6222811/how-to-do-distinct-and-group-in-mongodb（不接受，答案作者/OP没有测试它）
这个MongoDB 按功能分组 https://stackoverflow.com/questions/8769323/mongodb-group-by-functionalities（看起来与第二次尝试类似）
这个http://blog.emmettshear.com/post/2010/02/12/Counting-Uniques-With-MongoDB http://blog.emmettshear.com/post/2010/02/12/Counting-Uniques-With-MongoDB
这个https://groups.google.com/forum/?fromgroups#!topic/mongodb-user/trDn3jJjqtE https://groups.google.com/forum/?fromgroups#!topic/mongodb-user/trDn3jJjqtE
这个http://cookbook.mongodb.org/patterns/unique_items_map_reduce/ http://cookbook.mongodb.org/patterns/unique_items_map_reduce/

Also

GitHub 上似乎有一个拉取请求修复了.distinct方法提到它应该只返回一个计数，但它仍然是开放的：https://github.com/mongodb/mongo/pull/34 https://github.com/mongodb/mongo/pull/34

但此时我认为有必要在这里问一下，这个主题的最新情况是什么？我应该转向 SQL 或其他 NoSQL 数据库来获取不同计数吗？或者有什么有效的方法吗？

Update:

MongoDB 官方文档的这个评论并不令人鼓舞，这是准确的吗？

http://www.mongodb.org/display/DOCS/Aggregation#comment-430445808 http://www.mongodb.org/display/DOCS/Aggregation#comment-430445808

Update2:

似乎新的聚合框架回答了上述评论...（MongoDB 2.1/2.2 及更高版本，开发预览版可用，不适用于生产）

http://docs.mongodb.org/manual/applications/aggregation/ http://docs.mongodb.org/manual/applications/aggregation/

1）最简单的方法是通过聚合框架。这需要两个“$group”命令：第一个按不同值进行分组，第二个对所有不同值进行计数

pipeline = [ 
    { $group: { _id: "$myIndexedNonUniqueField"}  },
    { $group: { _id: 1, count: { $sum: 1 } } }
];

//
// Run the aggregation command
//
R = db.runCommand( 
    {
    "aggregate": "myCollection" , 
    "pipeline": pipeline
    }
);
printjson(R);

2）如果你想用 Map/Reduce 来做到这一点，你可以。这也是一个两阶段的过程：在第一阶段，我们构建一个新集合，其中包含键的每个不同值的列表。在第二个例子中，我们对新集合执行 count() 操作。

var SOURCE = db.myCollection;
var DEST = db.distinct
DEST.drop();


map = function() {
  emit( this.myIndexedNonUniqueField , {count: 1});
}

reduce = function(key, values) {
  var count = 0;

  values.forEach(function(v) {
    count += v['count'];        // count each distinct value for lagniappe
  });

  return {count: count};
};

//
// run map/reduce
//
res = SOURCE.mapReduce( map, reduce, 
    { out: 'distinct', 
     verbose: true
    }
    );

print( "distinct count= " + res.counts.output );
print( "distinct count=", DEST.count() );

请注意，您无法返回内联映射/归约的结果，因为这可能会超出 16MB 文档大小限制。你can将计算保存在集合中，然后 count() 集合的大小，或者您可以从 mapReduce() 的返回值中获取结果数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MongoDB

MongoDB 在索引列上选择 count(distinct x) - 计算大型数据集的唯一结果的相关文章

如何在 Mongoose 中定义排序函数

我正在开发一个小型 NodeJS Web 应用程序使用 Mongoose 访问我的 MongoDB 数据库我的收藏的简化架构如下 var MySchema mongoose Schema content type String loca
mongodb 通配符匹配特定键的所有值[重复]

这个问题在这里已经有答案了我试图弄清楚如何匹配一个键并返回该键的所有值是否可以将值作为通配符给出我想在值上使用通配符返回该特定键的所有内容 db collection find key 我还希望这也能返回整个集合其中的键也与通配符值
java.lang.IllegalArgumentException：在 MongoDB 中执行聚合的引用无效

我收集了一份文件 id ObjectId 5ab273ed31fa764560a912f8 hourNumber 21 errorSegments agentName agentX agentName agentY 我正在尝试在 Sprin
MongoDB：更新数组中的文档

我有一个包含此架构文档的集合 id something recipients id 1 name Andrey isread false id 2 name John isread false 现在我想使用以下命令更新 John id 2
Mongodb：如果比较运算符有效，为什么将字符串日期转换为 ISOdate？

我有以下类型的文档 id ObjectId 538d64a11ca6e50941fda4d9 id 538d518e20b8fd642e0000e8 posts some stuff date 2014 06 02 对字符串日期不是 Mo
下一个和上一个文档

我正在制作一个图片库每个图像都有一个 id 当我查看图像时我想要接下来的 3 个图像和之前的 3 个图像我怎样才能在 mongodb 查询中得到这个我认为我可以使用 sort by id 因为这是不可排序的也许使用mapReduc
为什么我在 Nodejs 中收到“在将标头发送到客户端后无法设置标头”错误？

我正进入状态 Cannot set headers after they are sent to the clientNodejs 中出现错误我无法弄清楚原因代码如下我正在使用 mongoose 将数据保存在 mongodb 中我
如何在 mongodb-native findAndModify 中使用变量作为字段名称？

在使用 mongodb native 驱动程序的这段代码中我想增加在单独变量中指定的字段的值问题在于在这种情况下 inc 子句中的字段名称将是变量而不是变量的内容在查询部分中所选变量按预期工作并找到正确的 ID var sel
使用 python 将多个 JSON 文件插入 MongoDB

JSON文件如下a json b json z json 26个json文件每个文件的 json 格式如下 a cappella word a cappella wordset id 5feb6f679a meanings id 4920
错误：键 $conditionalHandlers 不得以 '$' mongodb 开头

我对 mongodb 特别是 Node js 的 mongoose 包有疑问我有以下架构 var Schema mongoose Schema var location new Schema nomville type String re
Mongo $group 和 $project

我正在尝试获取关键字计数parentId categioryId and llcId 我的数据库是 id ObjectId 5673f5b1e4b0822f6f0a5b89 keyword electronic content manage
Mongoose 4.4.12 中 Schema 方法范围内的“this”为空 {}

当在 Schema 方法内记录到控制台时对象 this 为这发生在一天前我一直在阅读教程和其他堆栈溢出问题但不幸的是我没有找到原因的解决方案这是我的模型 var mongoose require mongoose var Sche
MongoDB 存储过程等效项

我有一个包含商店列表的大型 CSV 文件其中一个字段是邮政编码我有一个名为 ZipCodes 的独立 MongoDB 数据库它存储任何给定邮政编码的纬度和经度在 SQL Server 中我将执行一个名为 InsertStore 的
Spring Data mongodb：添加 MongoDb 访问凭据

我的 Spring 应用程序中有以下工作配置
MongoDB 如何选择候选计划

我的应用程序中的查询速度很慢创建两个索引后它在本地数据库中使用它们以获得更好的性能但是当我部署在生产数据库上时它仍然使用原始索引下面是我所做的集合中的属性tasks team id project id created by a
MongoDB insertMany 并跳过重复项

我试图insertMany https docs mongodb com manual reference method db collection insertMany 项目进入我的 Mongo 数据库但我想跳过重复的 ID 我在用着N
MongoDB：仅获取过去 24 小时内创建的文档？

我想限制我所做的查询仅查看过去 24 小时内创建的文档构造此查询的最佳方式是什么如何根据日期进行限制 Add createdAt字段索引它然后查询 db getCollection COLLECTION NAME find crea
MongoDB Java 驱动程序：MongoCore 驱动程序与 MongoDB 驱动程序与 MongoDB 异步驱动程序

MongoDB Java 驱动程序有三种不同的驱动程序选项核心驱动 MongoDB 驱动程序 MongoDB 异步驱动程序 The 驱动程序描述页面 https docs mongodb org ecosystem drivers jav
如何使用 ejs post 表单更新 node.js 和 MongoDB 应用程序中的现有用户数据？

我对 javascript 非常陌生发现 Brad Traversy 的视频 Node js with Passport Authentication 并关注了他的视频它对我有用但后来我想添加更多我创建了自定义仪表板和导航我添加的
mongodb在单个操作中进行多个聚合

我有一个包含以下文档的项目集合 item i1 category c1 brand b1 item i2 category c2 brand b1 item i3 category c1 brand b2 item i4 category

随机推荐

如何使用 Pagecontainer Widget 将对象发送到另一个不同的页面？

假设我的项目中或多或少有这些文件 A页 html PageA js 页面 html PageB js 我想将页面从 PageS html 更改为 Page html 然后我用了页面容器小部件 https api jquerymobile
在 R 中绘制预测的自定义轴标签

我正在尝试在预测上添加一些合理的标签这是我的代码 library forecast t lt ts c 4410 0 6435 0 4939 0 6487 0 25521 0 18764 0 12223 0 18590 0 36898 0
C# 函数返回两个值[重复]

这个问题在这里已经有答案了我想要一个函数在其中输入一个数组因此我需要另一个数组和一个整数值这可能吗 Example private int FunctionName int InputArray some function made
如何在单击时清除 EditText？

在Android中我怎样才能制作一个EditText单击时清除例如如果我有一个EditText中的一些字符例如 Enter Name 当用户单击它时这些字符就会消失我不确定你是否在想这个但试试这个 XML android hin
Azure Function App 不由事件中心触发

大家好我编写了 Python 函数来处理传入 EventHub 的 JSON 事件这些事件是由 Debezium 生成的这部分工作正常从 Visual Studio Code 本地执行时我的 python 代码也运行良好当我部署
如何用 hamlet 打印逗号分隔的列表？

使用 yesod 附带的 hamlet 模板语言打印逗号分隔列表的最佳方法是什么例如假设此代码仅打印一个又一个条目如何在元素之间插入逗号或者甚至可以在最后一个条目之前添加一个 and The values in the list
有什么理由将 .snk 文件与项目源一起发送？

我时不时地在网络上看到一个示例项目其中包含一个 snk 文件用于使用强名称对编译结果进行签名 AFAIK 这是完全错误的 https stackoverflow com questions 798621 do i need to pub
使用 data.table 子集来实现不相等

我有一个包含 400k 行的数据表我正在进行子集化但速度非常慢这是一个示例数据框 date name value size car1 car2 1 2015 01 01 07 44 00 bob 1 5 A D 2 2015 02 0
ASP.NET MVC 报告

我正在寻找 ASP NET MVC 的报告解决方案 I need 参数支持渲染为 HTML 导出到 Excel 免费价格合理有什么建议吗关于人的讨论正在进行中在 ASP NET MVC 中使用 ActiveReports 解决堆栈溢出
如何在固定尺寸外部 div 中包含的内部 div 上获得垂直滚动条？

我正在寻找一种 HTML CSS 解决方案其中内部 DIV 具有以下特征一定有包含在可变高度同级标题 div 下方的固定高度容器 div 中填充可用的可变高度没有 max height CSS 属性如果需要容纳内容则垂直滚动
从设置活动向 WallpaperService 发送消息时需要 BIND_WALLPAPER 权限

我一直在尝试找到一种方法从设置活动将消息传递到我的壁纸服务在设置中我这样做 Context context getApplicationContext Intent i new Intent context RainWallpaper c
缩小 SliverAppBar 图像动画，如 Flutter 中的标题文本

我正在尝试复制带有图像的 SliverAppBar 自然附带的文本收缩效果以便 sliverhead 的背景图像收缩为 sliverAppBar 的应用栏中的前导图标我尝试使用 AnimatedPostioned flutter 小部件
从 DrRacket 读取命令行参数

当使用球拍运行脚本时如何检测给出的命令行参数也就是说相当于 Python 中的 sys argv Java 中的 args 等您有以下选择您可以在文档中查找所有选项以获取更多信息 current command line argu
NHibernate 的优点和缺点

使用 NHibernate 的优点缺点是什么应该和不应该使用 NHibernate 构建什么样的应用程序既然别人都说了优点我就只说缺点吧缺点由于元数据准备而增加了启动时间不适合桌面类应用程序没有orm背景的巨大学习曲线微
使用 LINQ 从大型结果集中高效选择随机行（ala TABLESAMPLE）

我想从一个非常大的表数百万行上的复杂查询的结果中选择一些随机行我正在使用 SQL Server 2008 有效地执行此操作的正确方法似乎是表格示例 http technet microsoft com en us library ms
连接+三元

在 PHP 中有没有办法使用三元条件连接两个字符串当我尝试这样做时我得到的只是else而不是想要的something else 只需将整个三元运算符放在括号中如下所示为什么你必须这样做答案是运算符优先级请参阅手册了解更多信息
在 Mercurial 中，如何设置和使用每个用户平台相关的 hgrc？

系统级 hgrc 文件位于 etc mercurial and
如何更改 Android 上按钮的文本对齐方式（Xamarin Forms）？

我使用 Xamarin 表单在 iOS 上按钮显示的文本对齐很好对齐文本 iOS https i stack imgur com zEDQp png 但在 Android 上按钮的文本对齐方式始终显示居中对齐文本 Android
为什么 float('nan') 在 python 中不等于自身[重复]

这个问题在这里已经有答案了 In 6 a float nan In 7 a a Out 7 False Why 有两个原因一是现实原因一是历史原因历史原因是这使得测试 NaN 变得微不足道如果该值不等于其自身则为 NaN 实际原
MongoDB 在索引列上选择 count(distinct x) - 计算大型数据集的唯一结果

I have gone through several articles and examples and have yet to find an efficient way to do this SQL query in MongoDB

MongoDB 在索引列上选择 count(distinct x) - 计算大型数据集的唯一结果

MongoDB 在索引列上选择 count(distinct x) - 计算大型数据集的唯一结果 的相关文章

随机推荐

热门标签

MongoDB 在索引列上选择 count(distinct x) - 计算大型数据集的唯一结果的相关文章