总结一下聊天室的后续情况,这个问题实际上与 find() 查询有关,该查询正在扫描所有约 500k 文档以找到 15 个:
db.tweet_data.find({
$or:
[
{ in_reply_to_screen_name: /^kunalnayyar$/i, handle: /^kaleycuoco$/i, id: { $gt: 0 } },
{ in_reply_to_screen_name: /^kaleycuoco$/i, handle: /^kunalnayyar$/i, id: { $gt: 0 } }
],
in_reply_to_status_id_str: { $ne: null }
} ).explain()
{
"cursor" : "BtreeCursor id_1",
"nscanned" : 523248,
"nscannedObjects" : 523248,
"n" : 15,
"millis" : 23682,
"nYields" : 0,
"nChunkSkips" : 0,
"isMultiKey" : false,
"indexOnly" : false,
"indexBounds" : {
"id" : [
[
0,
1.7976931348623157e+308
]
]
}
}
该查询正在使用不区分大小写的正则表达式 http://www.mongodb.org/display/DOCS/Advanced+Queries#AdvancedQueries-RegularExpressions这不会有效地利用索引(尽管在本例中实际上没有定义索引)。
建议的方法:
创建小写handle_lc
and inreply_lc
用于搜索目的的字段
-
add a 复合指数 http://www.mongodb.org/display/DOCS/Indexes#Indexes-CompoundKeys关于那些:
db.tweet.ensureIndex({handle_lc:1, inreply_lc:1})
复合索引的顺序允许通过以下方式有效地查找所有推文handle
or by (handle,in_reply_to
)
通过精确匹配而不是正则表达式进行搜索:
db.tweet_data.find({
$or:
[
{ in_reply_to_screen_name:'kunalnayyar', handle:'kaleycuoco', id: { $gt: 0 } },
{ in_reply_to_screen_name:'kaleycuoco', handle:'kunalnayyar', id: { $gt: 0 } }
],
})