我有一个使用 Meteor Up 部署到 Digital Ocean 的 Meteor (0.8.0) 应用程序,该应用程序一直卡在 100% CPU,只是因内存不足而崩溃,然后以 100% CPU 再次启动。过去24小时就这样卡住了。奇怪的是没有人在使用服务器,并且meteor.log 没有显示太多线索。我有 MongoHQ 和 oplog 数据库。
数字海洋规格:
1GB RAM 30GB SSD 磁盘纽约 2 Ubuntu 12.04.3 x64
显示问题的屏幕截图:
请注意,屏幕截图是昨天捕获的,它一直保持在 100% cpu 状态,直到内存不足而崩溃。日志显示:
致命错误:疏散分配失败 - 进程内存不足
错误:永远检测到的脚本被信号杀死:SIGABRT 错误:
永远重启脚本5次
顶部显示:
26308 流星 20 0 1573m 644m 4200 R 98.1 64.7 32:45.36 节点
它是如何开始的:
我有一个应用程序,它通过 csv 或 mailchimp oauth 接收电子邮件列表,通过批处理调用将它们发送给 fullcontacthttp://www.fullcontact.com/developer/docs/batch/ http://www.fullcontact.com/developer/docs/batch/然后根据响应状态相应地更新 Meteor 集合。 200 回复中的片段
if (result.statusCode === 200) {
var data = JSON.parse(result.content);
var rate_limit = result.headers['x-rate-limit-limit'];
var rate_limit_remaining = result.headers['x-rate-limit-remaining'];
var rate_limit_reset = result.headers['x-rate-limit-reset'];
console.log(rate_limit);
console.log(rate_limit_remaining);
console.log(rate_limit_reset);
_.each(data.responses, function(resp, key) {
var email = key.split('=')[1];
if (resp.status === 200) {
var sel = {
email: email,
listId: listId
};
Profiles.upsert({
email: email,
listId: listId
}, {
$set: sel
}, function(err, result) {
if (!err) {
console.log("Upsert ", result);
fullContactSave(resp, email, listId, Meteor.userId());
}
});
RawCsv.update({
email: email,
listId: listId
}, {
$set: {
processed: true,
status: 200,
updated_at: new Date().getTime()
}
}, {
multi: true
});
}
});
}
在我本地运行 Vagrant 的 Windows 笔记本电脑上,一次处理数十万封电子邮件没有任何性能问题。但在 Digital Ocean 上,它似乎甚至无法处理 15,000(我见过 CPU 飙升至 100%,然后因 OOM 崩溃,但在它出现后通常会稳定下来......不是这次)。让我担心的是,尽管应用程序上没有/很少有活动,但服务器根本没有恢复。我通过查看分析验证了这一点 - GA 在 24 小时内总共显示了 9 个会话,除了点击 / 和弹跳之外几乎没有什么作用,MixPanel 在同一时间范围内仅显示 1 个登录用户(我)。自从最初的失败以来我所做的唯一一件事就是检查facts
包,其中显示:
mongo-livedata 观察多路复用器 13 观察驱动程序-oplog 13
oplog-watchers 16 个观察句柄 15 个在查询阶段花费的时间
87828 FETCHING 阶段花费的时间 82 个实时数据
invalidation-crossbar-listeners 16 个订阅 11 个会话 1
Meteor APM 也没有显示任何异常情况,除了 OOM 和重新启动消息之外,meteor.log 没有显示任何流星活动。 MongoHQ 没有报告任何运行缓慢的查询或大量活动 - 0 查询、更新、插入、删除都来自盯着他们的监控仪表板。据我所知,24 小时内没有太多活动,当然也没有什么密集活动。此后,我尝试安装 newrelic 和 nodetime,但两者都不太有效 - newrelic 没有显示任何数据,并且meteor.log 有一条 nodetime 调试消息
加载 nodatime-native 扩展失败。
因此,当我尝试使用 nodetime 的 CPU 分析器时,它会显示空白,并且堆快照返回错误:未加载 V8 工具。
此时我基本上没有想法,而且由于 Node 对我来说还很陌生,感觉就像我在黑暗中进行疯狂的尝试。请帮忙。
Update:四天后服务器仍然保持在 100%。即使 init 6 也不会执行任何操作 - 服务器重新启动、节点进程启动并跳回到 100% cpu。我尝试了其他工具,如 memwatch 和 webkit-devtools-agent,但无法让它们与 Meteor 一起使用。
以下是 strace 输出
strace -c -p 6840
进程 6840 附加 - 中断退出
^CProcess 6840 已分离
% time 秒 usecs/call 调用错误 syscall
77.17 0.073108 1 113701 epoll_等待
11.15 0.010559 0 80106 39908 映射
6.66 0.006309 0 116907 读取
2.09 0.001982 0 84445 富泰克斯
1.49 0.001416 0 45176 写入
0.68 0.000646 0 119975 慕尼黑地图
0.58 0.000549 0 227402 时钟获取时间
0.10 0.000095 0 117617 rt_sigprocmask
0.04 0.000040 0 30471 epoll_ctl
0.03 0.000031 0 71428 gettimeofday
0.00 0.000000 0 36 m保护
0.00 0.000000 0 4 巴克
100.00 0.094735 1007268 39908 合计
所以看起来节点进程大部分时间都花在了epoll_wait上。