问题描述:今天微服务报错想用链路id追踪这个服务的流向,发现skywalking页面空白,查看后台进程发现skywalking-oap-server服务掉了,重启还是不行
tail -n500 skywalking-oap-server.log
查看这个服务的日志,发现是es分区满了导致的
于是去es服务器上查看,分区情况,发现已经到3000临界值
curl --insecure --anyauth -u elastic:Es@2022 -XGET 'http://10.121.65.106:19200/_cluster/health?pretty=true'
{
"cluster_name" : "es-cluster",
"status" : "green",
"timed_out" : false,
"number_of_nodes" : 3,
"number_of_data_nodes" : 3,
"active_primary_shards" : 1545,
"active_shards" : 3000,
"relocating_shards" : 0,
"initializing_shards" : 0,
"unassigned_shards" : 0,
"delayed_unassigned_shards" : 0,
"number_of_pending_tasks" : 0,
"number_of_in_flight_fetch" : 0,
"task_max_waiting_in_queue_millis" : 0,
"active_shards_percent_as_number" : 100.0
}
使用kibana的Dev Tools执行命令(临时 因为transient是临时生效重启es就会失效)
再次重启skywalking,此时skywalking-oap-server服务正常
清除缓存,此时skywalking页面正常,继续排查微服务的错.....