我正在运行一个 MongoDB 服务器(这实际上就是它运行的全部内容)。该服务器拥有 64GB RAM 和 16 个内核,以及 2TB 硬盘空间。
文档结构
数据库有一个集合domains
拥有大约 2000 万份文档。每个文档中都有相当多的数据,但出于我们的目的,该文档的结构如下:
{
_id: "abcxyz.com",
LastUpdated: <date>,
...
}
_id字段是文档引用的域名。 LastUpdated 有一个升序索引。 LastUpdated 每天更新数十万条记录。基本上,每当文档有新数据可用时,文档都会更新,并且 LastUpdated 字段会更新为当前日期/时间。
查询
我有一种从数据库中提取数据的机制,以便可以在 Lucene 索引中对其进行索引。 LastUpdated 字段是标记对文档所做更改的关键驱动程序。为了搜索已更改的文档并翻阅这些文档,我执行以下操作:
{
LastUpdated: { $gte: ISODate(<firstdate>), $lt: ISODate(<lastdate>) },
_id: { $gt: <last_id_from_previous_page> }
}
sort: { $_id:1 }
当没有返回文档时,开始日期和结束日期将向前移动,并且 _id“锚点”字段将被重置。此设置可以容忍先前页面中已更改其 LastUpdated 值的文档,即,分页不会因先前页面中现在技术上不再位于这些页面中的文档数量而错误地偏移。
问题
理想情况下,我想一次选择大约 25000 个文档,但由于某种原因,查询本身(即使只选择 极其 slow.
我运行的查询是:
db.domains.find({
"LastUpdated" : {
"$gte" : ISODate("2011-11-22T15:01:54.851Z"),
"$lt" : ISODate("2011-11-22T17:39:48.013Z")
},
"_id" : { "$gt" : "1300broadband.com" }
}).sort({ _id:1 }).limit(50).explain()
事实上,它太慢了,以至于解释(在撰写本文时)已经运行了 10 多分钟,但尚未完成。如果这个问题完成的话,我会更新它,但当然要点是查询非常慢。
我能做些什么?我不知道查询可能出现什么问题。
EDIT55分钟后讲解完毕。这里是:
{
"cursor" : "BtreeCursor Lastupdated_-1__id_1",
"nscanned" : 13112,
"nscannedObjects" : 13100,
"n" : 50,
"scanAndOrder" : true,
"millis" : 3347845,
"nYields" : 5454,
"nChunkSkips" : 0,
"isMultiKey" : false,
"indexOnly" : false,
"indexBounds" : {
"LastUpdated" : [
[
ISODate("2011-11-22T17:39:48.013Z"),
ISODate("2011-11-22T15:01:54.851Z")
]
],
"_id" : [
[
"1300broadband.com",
{
}
]
]
}
}