Ray 集群配置 file_mounts 部分不允许启动工作节点

2023-12-30

我正在尝试使用配置文件中的 file_mounts 块将少量文件分发到 AWS EC2 上的 Ray 集群中的每个节点:-

文件挂载:{ "./": "./run_files" }

集群启动时仅使用一个主节点,run_files 目录的内容已正确复制到该主节点上。但是,所请求的两个工作节点不会启动。如果我省略 file_mounts 部分,工作人员就会启动。 Ray 监视器指示在 Anaconda3 安装的 matplotlib 子目录中定位文件 libtcl.so 时出现问题。该文件位于主节点上的正确路径上,因此工作节点上的设置似乎无法正常工作:-

$ ray exec ray_conf.yaml  'tail -n 100 -f /tmp/ray/session_*/logs/monitor*'
2019-05-29 19:36:14,019 INFO updater.py:95 -- NodeUpdater: Waiting for IP of i-073950262949fe9a8...
2019-05-29 19:36:14,019 INFO log_timer.py:21 -- NodeUpdater: i-073950262949fe9a8: Got IP [LogTimer=362ms]
2019-05-29 19:36:14,025 INFO updater.py:272 -- NodeUpdater: Running tail -n 100 -f /tmp/ray/session_*/logs/monitor* on 54.175.173.233...
==> /tmp/ray/session_2019-05-29_23-35-49_842129_4407/logs/monitor.err <==
Traceback (most recent call last):
  File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/monitor.py", line 376, in <module>
redis_password=args.redis_password)
  File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/monitor.py", line 54, in __init__
self.load_metrics)
  File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/autoscaler/autoscaler.py", line 349, in __init__
self.reload_config(errors_fatal=True)
  File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/autoscaler/autoscaler.py", line 523, in reload_config
raise e
  File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/autoscaler/autoscaler.py", line 516, in reload_config
new_config["worker_start_ray_commands"]
  File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/autoscaler/autoscaler.py", line 790, in hash_runtime_conf
add_content_hashes(local_path)
  File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/autoscaler/autoscaler.py", line 778, in add_content_hashes
add_hash_of_file(fpath)
  File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/autoscaler/autoscaler.py", line 764, in add_hash_of_file
with open(fpath, "rb") as f:
FileNotFoundError: [Errno 2] No such file or directory: './anaconda3/pkgs/matplotlib-2.1.0-py36hba5de38_0/lib/libtcl.so'

==> /tmp/ray/session_2019-05-29_23-35-49_842129_4407/logs/monitor.out <==

(请注意,这个问题是“Workers not being returned on EC2 by ray”问题的后续问题,我在一个新问题中继续,因为现在更具体地确定了错误的来源。)


我认为 libtcl.so 错误消息非常具有误导性。问题是 file_mounts 远程路径不能是工作人员的主目录(./ 和 ~/ 都不起作用);它必须是一个子目录。所以以下是成功的:-

file_mounts: {"~/run_files": "./run_files"}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Ray 集群配置 file_mounts 部分不允许启动工作节点 的相关文章

随机推荐

  • Laravel、composer安装,不要安装laravel/framework

    需要 Laravel 专家帮助我找出我的composer json 配置有什么问题 我用谷歌搜索答案并继续进行 我检查了每一条可能的行 我仍然可以让它工作 我从 git repo 获取了这些文件 它可以在办公室工作 但是当我尝试在家里做同样
  • DllImport、Char*& 和 StringBuilder C/C#

    我有一个问题 我尝试查看几乎所有的海报解决方案 但未能找到合适的解决方案 问题很简单 想要在我的托管 C 中从非托管 C 代码返回字符串 c 函数为 extern C declspec dllexport int process batch
  • PHPMailer 调试消息

    我正在使用 PHPMailer 我想在我的数据库中保存一些调试信息 下面的代码显示了如何在使用 SMTP 服务器时保存调试信息 如下所示 mail gt SMTPDebug SMTP DEBUG SERVER mail gt SMTPDeb
  • 如何使用 angularjs 在视图中检查 ng-if 值是否为 null?

    我有这种情况 div div i class icon ion checkmark i div div but test view null不起作用 也不只是检查test view or test view 有任何想法吗 thanks ed
  • Pycharm(Python IDE)只能显示列表的前 300 个成员

    当我用超过 300 个元素填充列表时 我用来读取 Python 的工作环境 Pycharm 将仅显示前 300 个元素 这适用于社区版和专业版 有谁知道如何解决这个问题 如果没有 是否有人知道可以显示列表中所有元素的 IDE 即使该列表有
  • 在嵌套 Python 字典中搜索键

    我有一些像这样的Python字典 A id idnumber condition e g A 1 11 567 54 2 14 123 13 我需要搜索字典是否有idnumber 11并计算一些东西condition 但如果整个字典里没有i
  • VB.NET 私​​有字段的命名约定

    VB NET 中是否有命名私有字段的官方约定 例如 如果我有一个名为 Foo 的属性 我通常将私有字段称为 Foo 这在国内似乎是不被允许的官方指南 http msdn microsoft com en us library ms22901
  • 如何将 SQL Server .bak 文件导入 MySQL?

    标题是不言自明的 有没有办法直接进行此类导入 来自 SQL Server 的 BAK 文件采用 Microsoft 磁带格式 MTF 参考 http www fpns net willy msbackup htm http www fpns
  • JWT如何在授权服务器之外进行验证

    最近 我尝试使用 JSON Web Token JWT 作为访问令牌来实现 OAuth2 0 服务器 我对 JWT 的独立功能感到非常困惑 我注意到 JWT 可以在任何地方进行验证 而不是强制在授权服务器中进行验证 因为它是独立的 这个功能
  • JSP中如何获取完整的URL

    我如何获得 JSP 页面的完整 URL 例如 URL 可能是 如果我执行以下操作 我总是得到 news jsp 而不是 do out print request getServletPath out print request getReq
  • 使用 javascript 确定 javascript 中的堆栈深度

    有没有办法通过使用 javascript 本身来确定在 javascript 中执行的所有函数的堆栈深度 我想这可能涉及修改Function原型 但我真的不知道 此外 如果能够在堆栈深度足够高时进行中断 那就太好了 这样做的原因是我有一个I
  • java中字符串的分割

    我想分割这个字符串并将值放入我的数据库表中 我正在考虑使用字符串标记器类或其他方式 请告诉我最好的方法以及如何用代码实际实现它 它看起来像 CSV 因此您可以使用任何推荐的 Java CSV 库 您能推荐一个用于读取 也可能写入 CSV 文
  • 如何更改 React Native 中的“捆绑包标识符”?

    启动一个新的react native项目 xcode 项目获得包标识符 org reactjs native example XYZApp XYZ 是我真实项目名称的占位符 有什么方法可以在反应本机端更改此包标识符吗 当然 我可以在 XCo
  • 使用 wp_redirect 重定向 WordPress 页面

    由于我不想使用另一个插件来执行简单的重定向任务 因此我决定使用以下代码 wp 重定向 http www example com contact us http www example com contact us 301 这是我的问题 假设
  • 如何提高elasticsearch性能

    我使用python中的parallel bulk函数向elasticsearch写入数据 但是性能很低 我写入10000条数据 消耗了180s 我设置了settings settings number of shards 5 number
  • System.InvalidOperationException:“只能使用 IApplicationBuilder.UsePathBase() 配置路径库。” [复制]

    这个问题在这里已经有答案了 我有一个在 Docker 中运行的 ASP Net Core 2 解决方案 该解决方案在一台运行 VS 2017 Professional 的计算机上运行正常 但在另一台运行 VS 2017 Community
  • Firebase 的云功能:如何使用事务承诺?

    我正在尝试在 Cloud Functions 中编写一个函数 每次创建用户时都会触发该函数 然后将该用户保存到用户列表中 最后增加用户计数器 但是我不确定我是否正确使用了承诺 exports saveUser functions auth
  • 为什么从 ADO 切换到 ADO.NET?

    我有一些朋友是 老派 VB6 数据库开发人员 我向他们介绍 NET 及其功能 特别是 ADO NET 在我们的谈话中 他们提出了以下宁愿坚持使用 ADO 而不是转向 ADO NET 的原因 数据集已断开连接 如果断电怎么办 仍然需要编写相同
  • socket.io 错误 - Web 套接字连接在建立连接之前已关闭

    我从这个页面学到了一些 gt https github com Automattic socket io issues 1846 https github com Automattic socket io issues 1846 我需要 S
  • Ray 集群配置 file_mounts 部分不允许启动工作节点

    我正在尝试使用配置文件中的 file mounts 块将少量文件分发到 AWS EC2 上的 Ray 集群中的每个节点 文件挂载 run files 集群启动时仅使用一个主节点 run files 目录的内容已正确复制到该主节点上 但是 所