当多个服务器 Pod 同时启动时，无法加入 Apache Ignite 拓扑

2024-04-19

我目前正在 Kubernetes 环境中设置无状态 Apache Ignite 集群。

在灾难恢复测试期间，我有意同时重启了多个服务器Ignite节点。这些 Ignite 服务器节点大约在同一时间启动。

自从Ignite服务器节点恢复后，整个Ignite集群就陷入了混乱，服务器和客户端之间的连接丢失并且从未恢复。

服务器节点日志中不断出现以下行：

Failed to wait for partition map exchange [topVer=AffinityTopologyVersion [topVer=572, minorTopVer=0], node=f1f26b7e-5130-423a-b6c0-477ad58437ee]. Dumping pending objects that might be the cause:

编辑：添加了更多日志，显示节点正在尝试一致地重新加入 Ignite 拓扑

Added new node to topology: TcpDiscoveryNode [id=91be6833-9884-404b-8b20-afb004ce32a3, addrs=[100.64.32.153, 127.0.0.1], sockAddrs=[/100.64.32.153:0, /127.0.0.1:0], discPort=0, order=337, intOrder=212, lastExchangeTime=1571403600207, loc=false, ver=2.7.5#20190603-sha1:be4f2a15, isClient=true]
Topology snapshot [ver=337, locNode=98f9d085, servers=9, clients=78, state=ACTIVE, CPUs=152, offheap=2.3GB, heap=45.0GB]
Local node's value of 'java.net.preferIPv4Stack' system property differs from remote node's (all nodes in topology should have identical value) [locPreferIpV4=true, rmtPreferIpV4=null, locId8=98f9d085, rmtId8=4110272f, rmtAddrs=[securities-1-0-0-6d57b9989b-95wkn/100.64.0.31, /127.0.0.1], rmtNode=ClusterNode [id=4110272f-ca98-4a51-89e3-3478d87ff73e, order=338, addr=[100.64.0.31, 127.0.0.1], daemon=false]]
Added new node to topology: TcpDiscoveryNode [id=4110272f-ca98-4a51-89e3-3478d87ff73e, addrs=[100.64.0.31, 127.0.0.1], sockAddrs=[/127.0.0.1:0, /100.64.0.31:0], discPort=0, order=338, intOrder=213, lastExchangeTime=1571403600394, loc=false, ver=2.7.5#20190603-sha1:be4f2a15, isClient=true]
Topology snapshot [ver=338, locNode=98f9d085, servers=9, clients=79, state=ACTIVE, CPUs=153, offheap=2.3GB, heap=45.0GB]
Completed partition exchange [localNode=98f9d085-933a-435c-a09b-1846cf39c3b1, exchange=GridDhtPartitionsExchangeFuture [topVer=AffinityTopologyVersion [topVer=284, minorTopVer=0], evt=NODE_FAILED, evtNode=TcpDiscoveryNode [id=f3fb9b23-e3b0-47ab-98da-baf2421fb59a, addrs=[100.64.32.132, 127.0.0.1], sockAddrs=[/100.64.32.132:0, /127.0.0.1:0], discPort=0, order=66, intOrder=66, lastExchangeTime=1571377609149, loc=false, ver=2.7.5#20190603-sha1:be4f2a15, isClient=true], done=true], topVer=AffinityTopologyVersion [topVer=284, minorTopVer=0], durationFromInit=104]
Finished exchange init [topVer=AffinityTopologyVersion [topVer=284, minorTopVer=0], crd=true]
Skipping rebalancing (obsolete exchange ID) [top=AffinityTopologyVersion [topVer=284, minorTopVer=0], evt=NODE_FAILED, node=f3fb9b23-e3b0-47ab-98da-baf2421fb59a]
Started exchange init [topVer=AffinityTopologyVersion [topVer=285, minorTopVer=0], mvccCrd=MvccCoordinator [nodeId=98f9d085-933a-435c-a09b-1846cf39c3b1, crdVer=1571377592872, topVer=AffinityTopologyVersion [topVer=117, minorTopVer=0]], mvccCrdChange=false, crd=true, evt=NODE_FAILED, evtNode=b4b25a6f-1d3c-411f-9d81-5593d52e9db1, customEvt=null, allowMerge=true]
Finish exchange future [startVer=AffinityTopologyVersion [topVer=285, minorTopVer=0], resVer=AffinityTopologyVersion [topVer=285, minorTopVer=0], err=null]
Local node's value of 'java.net.preferIPv4Stack' system property differs from remote node's (all nodes in topology should have identical value) [locPreferIpV4=true, rmtPreferIpV4=null, locId8=98f9d085, rmtId8=edc33f38, rmtAddrs=[transfer-1-0-0-846f8bf868-dnfjg/100.64.18.195, /127.0.0.1], rmtNode=ClusterNode [id=edc33f38-9c94-4c4d-a109-be722e918512, order=339, addr=[100.64.18.195, 127.0.0.1], daemon=false]]
Added new node to topology: TcpDiscoveryNode [id=edc33f38-9c94-4c4d-a109-be722e918512, addrs=[100.64.18.195, 127.0.0.1], sockAddrs=[/127.0.0.1:0, /100.64.18.195:0], discPort=0, order=339, intOrder=214, lastExchangeTime=1571403600468, loc=false, ver=2.7.5#20190603-sha1:be4f2a15, isClient=true]
Topology snapshot [ver=339, locNode=98f9d085, servers=9, clients=80, state=ACTIVE, CPUs=155, offheap=2.3GB, heap=46.0GB]
Completed partition exchange [localNode=98f9d085-933a-435c-a09b-1846cf39c3b1, exchange=GridDhtPartitionsExchangeFuture [topVer=AffinityTopologyVersion [topVer=285, minorTopVer=0], evt=NODE_FAILED, evtNode=TcpDiscoveryNode [id=b4b25a6f-1d3c-411f-9d81-5593d52e9db1, addrs=[100.64.19.98, 127.0.0.1], sockAddrs=[/127.0.0.1:0, /100.64.19.98:0], discPort=0, order=71, intOrder=71, lastExchangeTime=1571377609159, loc=false, ver=2.7.5#20190603-sha1:be4f2a15, isClient=true], done=true], topVer=AffinityTopologyVersion [topVer=285, minorTopVer=0], durationFromInit=100]
Finished exchange init [topVer=AffinityTopologyVersion [topVer=285, minorTopVer=0], crd=true]
Skipping rebalancing (obsolete exchange ID) [top=AffinityTopologyVersion [topVer=285, minorTopVer=0], evt=NODE_FAILED, node=b4b25a6f-1d3c-411f-9d81-5593d52e9db1]
Started exchange init [topVer=AffinityTopologyVersion [topVer=286, minorTopVer=0], mvccCrd=MvccCoordinator [nodeId=98f9d085-933a-435c-a09b-1846cf39c3b1, crdVer=1571377592872, topVer=AffinityTopologyVersion [topVer=117, minorTopVer=0]], mvccCrdChange=false, crd=true, evt=NODE_FAILED, evtNode=c161e542-bad7-4f41-a973-54b6e6e7b555, customEvt=null, allowMerge=true]
Finish exchange future [startVer=AffinityTopologyVersion [topVer=286, minorTopVer=0], resVer=AffinityTopologyVersion [topVer=286, minorTopVer=0], err=null]
Completed partition exchange [localNode=98f9d085-933a-435c-a09b-1846cf39c3b1, exchange=GridDhtPartitionsExchangeFuture [topVer=AffinityTopologyVersion [topVer=286, minorTopVer=0], evt=NODE_FAILED, evtNode=TcpDiscoveryNode [id=c161e542-bad7-4f41-a973-54b6e6e7b555, addrs=[100.64.17.126, 127.0.0.1], sockAddrs=[/127.0.0.1:0, /100.64.17.126:0], discPort=0, order=38, intOrder=38, lastExchangeTime=1571377608515, loc=false, ver=2.7.5#20190603-sha1:be4f2a15, isClient=true], done=true], topVer=AffinityTopologyVersion [topVer=286, minorTopVer=0], durationFromInit=20]
Finished exchange init [topVer=AffinityTopologyVersion [topVer=286, minorTopVer=0], crd=true]
Skipping rebalancing (obsolete exchange ID) [top=AffinityTopologyVersion [topVer=286, minorTopVer=0], evt=NODE_FAILED, node=c161e542-bad7-4f41-a973-54b6e6e7b555]
Started exchange init [topVer=AffinityTopologyVersion [topVer=287, minorTopVer=0], mvccCrd=MvccCoordinator [nodeId=98f9d085-933a-435c-a09b-1846cf39c3b1, crdVer=1571377592872, topVer=AffinityTopologyVersion [topVer=117, minorTopVer=0]], mvccCrdChange=false, crd=true, evt=NODE_FAILED, evtNode=0c16c5a7-6e3f-4fd4-8618-b6d8d8888af4, customEvt=null, allowMerge=true]
Finish exchange future [startVer=AffinityTopologyVersion [topVer=287, minorTopVer=0], resVer=AffinityTopologyVersion [topVer=287, minorTopVer=0], err=null]
Completed partition exchange [localNode=98f9d085-933a-435c-a09b-1846cf39c3b1, exchange=GridDhtPartitionsExchangeFuture [topVer=AffinityTopologyVersion [topVer=287, minorTopVer=0], evt=NODE_FAILED, evtNode=TcpDiscoveryNode [id=0c16c5a7-6e3f-4fd4-8618-b6d8d8888af4, addrs=[100.64.34.22, 127.0.0.1], sockAddrs=[/127.0.0.1:0, /100.64.34.22:0], discPort=0, order=25, intOrder=25, lastExchangeTime=1571377607690, loc=false, ver=2.7.5#20190603-sha1:be4f2a15, isClient=true], done=true], topVer=AffinityTopologyVersion [topVer=287, minorTopVer=0], durationFromInit=52]
Finished exchange init [topVer=AffinityTopologyVersion [topVer=287, minorTopVer=0], crd=true]
Skipping rebalancing (obsolete exchange ID) [top=AffinityTopologyVersion [topVer=287, minorTopVer=0], evt=NODE_FAILED, node=0c16c5a7-6e3f-4fd4-8618-b6d8d8888af4]
Started exchange init [topVer=AffinityTopologyVersion [topVer=288, minorTopVer=0], mvccCrd=MvccCoordinator [nodeId=98f9d085-933a-435c-a09b-1846cf39c3b1, crdVer=1571377592872, topVer=AffinityTopologyVersion [topVer=117, minorTopVer=0]], mvccCrdChange=false, crd=true, evt=NODE_FAILED, evtNode=807333d7-0b71-4510-a35d-0ed41e068ac5, customEvt=null, allowMerge=true]
Finish exchange future [startVer=AffinityTopologyVersion [topVer=288, minorTopVer=0], resVer=AffinityTopologyVersion [topVer=288, minorTopVer=0], err=null]
Completed partition exchange [localNode=98f9d085-933a-435c-a09b-1846cf39c3b1, exchange=GridDhtPartitionsExchangeFuture [topVer=AffinityTopologyVersion [topVer=288, minorTopVer=0], evt=NODE_FAILED, evtNode=TcpDiscoveryNode [id=807333d7-0b71-4510-a35d-0ed41e068ac5, addrs=[100.64.32.231, 127.0.0.1], sockAddrs=[/127.0.0.1:0, /100.64.32.231:0], discPort=0, order=74, intOrder=74, lastExchangeTime=1571377609280, loc=false, ver=2.7.5#20190603-sha1:be4f2a15, isClient=true], done=true], topVer=AffinityTopologyVersion [topVer=288, minorTopVer=0], durationFromInit=60]
Finished exchange init [topVer=AffinityTopologyVersion [topVer=288, minorTopVer=0], crd=true]

我也遇到过同样的问题。根据情况，逐一部署每个节点是解决此问题的唯一方法。就我的 ignite 经验而言。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Kubernetes

ignite

当多个服务器 Pod 同时启动时，无法加入 Apache Ignite 拓扑的相关文章

更改 Kubernetes 中的 CPU 管理器策略

我正在尝试更改我管理的 Kubernetes 集群的 CPU 管理器策略如上所述here https kubernetes io docs tasks administer cluster cpu management policies
Kubernetes 应用服务但端点没有

当我尝试将服务应用于 pod 时端点始终为 none 有人可以知道任何根本原因吗我还检查选择器是否与deployment yaml 中定义的内容匹配下面是我使用的部署服务文件我还附上了服务描述部署 yaml apiVersion
Istio 直接 Pod 到 Pod 通信

我在使用 Istio 部署的 Pod 与 Pod 进行通信时遇到问题我实际上需要它与 Istio 合作进行 Hazelcast 发现 https github com hazelcast hazelcast kubernetes issu
Prometheus - 监控容器中的命令输出

我需要监控 eks 集群中具有 nfs 挂载路径的许多旧容器使用 nfs client helm 图表映射容器 i 中的 nfs 目录我需要监视我的安装路径何时由于某种原因丢失而我发现做到这一点的唯一方法是在容器中执行命令 bin b
kubectl：描述与获取 -o <格式>

在 kubectl 中两者describe and get o
如何使用 VS Code 编辑 kubernetes pod 容器中的代码？

通常如果我有远程服务器我可以使用 ssh 访问它并且 VS Code 提供了一个漂亮的扩展用于编辑和调试远程服务器的代码但是当我在 Kuberneters 中创建 pod 时我无法真正通过 ssh 进入容器因此我无法编辑 po
Kubernetes：用 Calico 替代 Flannel

我是 Kubernetes 新手我想尝试不同的 CNI 在我当前的集群中我正在使用 Flannel 现在我想使用 Calico 但我找不到清理 Flannel 和安装 Calico 的正确指南您能指出正确的程序吗 Thanks Ca
如何从 kubernetes 集群内部访问主机的 localhost

在此应用程序中 nodejs pod 在 kubernetes 内部运行而 mongodb 本身作为 localhost 位于主机外部这确实不是一个好的设计但它只适用于开发环境在生产中将有一个单独的 mongodb 服务器因为这
Docker nuget连接超时

尝试利用官方jetbrains teamcity agentKubernetes 上的图像我已经设法在 Docker 中运行 Docker 但尝试使用以下命令构建 ASP NET Core 映像docker build命令失败于dotne
如何重用现有的持久卷声明

我已经删除了我的 Elasticsearch 集群但现在在部署新集群后我需要访问存储在 3 个持久卷 PV 上的旧数据如下所述 NAME STATUS VOLUME CAPACITY ACCESS MODES STORAGECLASS
Kubernetes：无法创建存储库

我正在跟进Kubernetes 入门指南 http kubernetes io docs hellonode 一切都很顺利直到我跑步 gcloud docker push gcr io
通过 nginx 入口控制器进行基本身份验证

我正在使用 nginx 入口控制器 https kubernetes github io ingress nginx deploy https kubernetes github io ingress nginx deploy 在 AWS
如何在 kubernetes 中传递命令行参数？

需要在 pod yaml 中传递 docker 容器 appContainer1 和 appContainer2 的命令行参数 pod yaml apiVersion v1 kind Pod metadata name microservi
如何在 microk8s 中使用本地 docker 镜像？

我一直在使用 minikube 在本地测试 Kubernetes 在 minikube 中我们可以使用本地 docker 镜像eval minikube docker env 命令我开始探索microk8s 在我运行 Ubuntu 18
prometheus 节点实例列表

是否可以使用 prometheus 获取节点实例列表我有一个节点导出器但我没有看到这样的指标我们应该添加一个新的运算符吗您可以使用kube 状态指标 https github com kubernetes kube state me
运行 istio-proxy 后启动容器/pod

我正在尝试使用 Istio 和 Envoy 通过 Kubernetes 实现服务网格我能够设置服务和 istio proxy 但无法控制容器和 istio proxy 的启动顺序我的容器是第一个启动的并尝试通过 TCP 访问外部资源
Kubernetes Pod 动态环境变量

我需要能够将自定义环境变量分配给 Pod 的每个副本一个变量应该是一些随机的 uuid 另一个唯一的数字怎么可能实现呢我更愿意继续使用带有副本的部署如果这不是开箱即用的如何通过自定义复制控制器控制器管理器来实现有没有可用的钩
在容器中运行多个相似的进程有意义吗？

提供有关该问题的背景的简要背景目前我和我的团队正在将微服务迁移到 k8s 以减少维护多个部署工具和管道的工作量我们计划迁移的微服务之一是 ETL Worker 它监听 SQS 上的消息并执行多阶段处理它是使用 PHP Laravel
允许 Kubernetes 用户列表/获取命名空间

我有以下用户清单我希望允许 myapp user 获取集群内所有命名空间的列表根据我的查找我应该创建一个 ClusterRole 但我无法真正找到足够的详细信息是否有所有 apiGroup 以及相应资源和动词的列表 apiVersi
Kubernetes WatchConnectionManager：执行失败：HTTP 403

我遇到错误Expected HTTP 101 response but was 403 Forbidden 在我使用以下命令设置新的 Kubernetes 集群之后Kubeadm当我提交下面遇到的 pyspark 示例应用程序时只有一个主

随机推荐

marathon-lb 健康检查在所有 Spray.io 容器上失败

我正在使用 marathon lb 运行 DC OS 1 7 Spray io 1 3 3 向所有 marathon elb HAProxy 健康检查调用返回 400 request has a relative URI and is mi
laravel中如何检查文件是否上传

我正在将图像文件上传到输入文件图片上传我需要检查文件是否已上传然后创建一个唯一的文件名并将其保存在服务器上 file request gt file ImageUpload filename uniqid user gt id file
为什么在算法中使用子树大小来选择二叉树中的随机节点？

我偶然发现了从二叉树中选择随机节点的算法的几种实现它们都使用子树大小属性但是我不明白为什么知道子树大小有帮助这是实现A https stackoverflow com a 32011526 and B https www geeks
axios get 带有标头授权的请求在 Edge 浏览器上不起作用

我在 vuejs 应用程序中使用带有标头的 axios get 请求在 Chrome 和 Firefox 中工作正常并得到响应但在边缘它不起作用出现网络错误我正在发送带有标题授权的请求 axios get url headers A
telegram.org 服务器返回的错误代码 35 是什么？

我的客户经常从电报服务器收到以下消息容器看似随机 MessageContainer msg u bad msg notification u bad msg seqno 4 u bad msg id 6330589643093583872
将文件从 docker 容器公开到主机

我有一个 docker 容器其中包含 django 应用程序生成静态文件并将其复制到静态文件夹容器文件夹层次结构 var django app static 在构建 docker 镜像之前我运行 manage py collects
postgres 的 Flyway 迁移挂起 CREATE INDEX CONCURRENTLY

我正在尝试对 Postgres 9 2 数据库运行 CREATE INDEX CONCURRENTLY 命令我实现了一个 MigrationResolver 如问题所示655 https github com flyway flyway
通过函数参数访问 R 列表元素

我有一个 R 列表如下所示 gt str prices List of 4 ID int 102894616 delay int 8 47973 List of 12 id int 47973 index int 2 matched nu
导入org.junit无法解析

我需要解决一个面试的Java问题他们给我发了测试课它开始于 import org junit Before 并且在某些地方还有以下语法 RunWith JUnit4 class Before Test 我已经有一段时间没有使用Java了
如何将非托管 C++ 表单嵌入到 .NET 应用程序中？

我已经能够成功包装我的非托管 Borland C dll 并从 C NET 4 0 应用程序启动它的表单是否可以将 dll 中的表单直接嵌入到 NET 应用程序中澄清一下原始形式已经被用作 Borland C 项目中的嵌入式控件它本
如何在不往返的情况下更新实体？ (EF 4)

我尝试了以下方法 public void UpdatePlayer int id Player player new Player ID id player Password 12 Entities Players Attach playe
无法在golang中解析复杂的json

我想解析这个 JSON 在 config synch conf 中 period yy exec period start month 1 week 2 day 3 hour 4 minute 5 end month 6 week 7
我如何在另一个线程Qt中显示MessageBox

这是我的代码 int main int argc char argv QApplication a argc argv testApp w w show TestClass test new TestClass QObject connec
对 NSString 中的每个单词调用一个方法

我想循环遍历NSString并对每个具有特定条件的单词调用自定义函数例如 has 2 L s 我想知道解决这个问题的最佳方法是什么我应该使用查找替换模式吗块 NSString convert NSString wordToConve
将数据写入文件：fflush()需要大量时间

我有一个要求其中我必须缓冲大量数据以 GB 为单位以供将来使用由于没有足够的 RAM 来缓冲如此大量的数据我决定将数据存储在文件中现在的陷阱是当我将数据写入文件时其他线程可能需要缓冲数据因此每次向文件流写入内容时我都
线程“WebContainer：0”(00000029) 已活动 647279 毫秒，可能已挂起

我在尝试使用 jasper 生成 Excel 报告时在 WebSphere 中遇到以下异常 ThreadMonitor W WSVR0605W Thread WebContainer 0 00000029 has been active f
获取selenium启动的浏览器的PID

我想获取selenium启动的浏览器的PID 有什么办法可以完成吗使用 Python API 非常简单 from selenium import webdriver browser webdriver Firefox print brow
NSMutableArray 根本不工作

我正在尝试将精灵添加到NSMutableArray但它没有添加它们这就是我所拥有的 NSMutableArray tail CCSprite block int j void handleTail CCSprite pos CGPoint
使用 Apache2 (mod_wsgi) 的 Django 出现问题，偶尔会无缘由地“无法从模块导入”

我已经将我的 Django 网站放到了我的 Web 服务器上并使用 apache2 和 mod wsgi 进行了设置大部分时间一切都工作正常但偶尔它只会给出错误无法导入模块通常是从我的模块导入视图文件但是这不是该模块的问题
当多个服务器 Pod 同时启动时，无法加入 Apache Ignite 拓扑

我目前正在 Kubernetes 环境中设置无状态 Apache Ignite 集群在灾难恢复测试期间我有意同时重启了多个服务器Ignite节点这些 Ignite 服务器节点大约在同一时间启动自从Ignite服务器节点恢复后整个I

当多个服务器 Pod 同时启动时，无法加入 Apache Ignite 拓扑

当多个服务器 Pod 同时启动时，无法加入 Apache Ignite 拓扑 的相关文章

随机推荐

热门标签

当多个服务器 Pod 同时启动时，无法加入 Apache Ignite 拓扑的相关文章