使用sparkr时我应该在工作节点上预安装cran r包吗

2023-12-09

我想在 cran 上使用 r 包,例如forecast等与sparkr并遇到以下两个问题。

  1. 我应该在工作节点上预安装所有这些软件包吗?但是当我读spark的源码时这个文件,似乎spark会自动压缩包并通过--jars或--packages将它们分发给工作人员。我应该怎么做才能使工作人员可以使用依赖项?

  2. 假设我需要使用提供的功能forecast in a map转换,我应该如何导入包。我是否需要执行以下操作,在地图函数中导入包,是否会进行多次导入: SparkR:::map(rdd, function(x){ library(forecast) then do other staffs })

Update:

阅读更多源代码后,看来,我可以使用includePackage根据以下内容在工作节点上包含包这个文件。那么现在的问题是我是否必须手动在节点上预安装软件包?如果这是真的,那么问题 1 中描述的 --jars 和 --packages 的用例是什么?如果这是错误的,如何使用 --jars 和 --packages 来安装软件包?


重复这个很无聊,但是你不应该使用内部 RDD API首先。它已在第一个 SparkR 官方版本中被删除,并且它根本不适合一般用途。

直到新的低级 API* 准备就绪(参见示例SPARK-12922 SPARK-12919, SPARK-12792)我不会将 Spark 视为运行纯 R 代码的平台。即使它发生变化,使用 R 包装器添加本机(Java / Scala)代码也可能是更好的选择。

话虽这么说,让我们从你的问题开始:

  1. RPackageUtils旨在处理使用 Spark 包创建的包。它不处理标准 R 库。

  2. 是的,您需要在每个节点上安装软件包。从includePackage文档字符串:

    假定该包已安装在 Spark 集群中的每个节点上。


* 如果您使用 Spark 2.0+,您可以使用 dapply、gapply 和 lapply 函数。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用sparkr时我应该在工作节点上预安装cran r包吗 的相关文章

随机推荐

  • 悬停时图像变化 Java

    我知道item1 setToolTipText This shows up on mouse hover 如果鼠标悬停在文本上 将允许显示文本 我想知道是否可以在鼠标悬停时改变图像 提前致谢 我会添加一个MouseListener到保存图像
  • Aurelia show.bind 是否有回调或承诺?

    在我的模板中 我想将一个 div 用作各种工具提示 当我选择模型时 会显示工具提示 然后我使用系绳将其放置在正确的位置 如果我在设置使元素显示的模型后立即设置 Tether 则它的大小无法正确计算 并且 Tether 不会正确限制约束 如果
  • 将背景颜色和渐变组合到一个背景 CSS 属性中

    我想将纯色和渐变结合在一个单一的颜色中backgroundCSS 属性 然后 我希望这两个背景具有单独的大小和位置参数 并分别指定background position and background size属性以便将这两个背景彼此相邻 d
  • python aes加密/解密不返回相同的结果

    下面的代码示例在加密 解密操作后不返回原始文本 我试图找出原因 from Crypto Cipher import AES text This is plain text to use It should be exqctly 128 ch
  • Ansible:使用带变量的嵌套组

    我遇到的情况是 我们有 3 层盒子 在每一层中我们应用不同的变量设置 例如缓存目录所在的位置 但有很多默认值 我还需要重写per node基础 这通常是通过主机本身的库存变量来完成的 我不确定组织主办方的最佳方式是什么 以便优先作品对我有利
  • 为什么 hsync() 不刷新我的 hdfs 文件?

    尽管有关于这个主题的所有资源 但我在刷新磁盘上的 hdfs 文件时遇到问题 hadoop 2 6 呼唤FSDataOutputStream hsync 应该可以解决这个问题 但实际上它只有效一次 原因不明 这是一个失败的简单单元测试 Tes
  • 测试自定义 UITableViewCell、cellForRowAtIndexPath 因 nil 出口而崩溃

    我有一个包含 tableView 的 ViewController 由于我需要用测试很好地覆盖代码 因此我需要为 tableView cellForRowAtIndexPath 编写一个测试 import UIKit class MainV
  • vbscript:如何将日期转换为天和时间

    我从 WMI 获得了上次启动时间 它看起来为 20141103113859 220250 060 我想将其转换为当前时间的天数和时间 是否可以 来自帮助 使用 SWbemDateTime 对象将它们转换为常规日期和时间 Windows 20
  • TabActivity 中永远不会调用 onActivityResult

    我知道有很多相同的问题 但 OnActivityResult 仍然没有被调用 这是我的代码 活动一 Intent i new Intent Bundle b new Bundle b putString ActivityB LINK ad
  • WPF 甜甜圈进度条

    我正在尝试将 WPF 4 Unleashed 一书中找到的饼图 ProgressBar 调整为看起来像甜甜圈 我觉得我已经成功了一半 但我不知道如何解决最后一个问题 这是一张图片 说明了我想要的以及我已经实现的目标 这就是我想要的样子 使用
  • 如何强制 C# 构建过程包含代码中未使用的程序集

    我有一个名为 Company Application 的应用程序 它确实使用库 公司 控制反转 公司 职能 合同 公司 职能 该应用程序使用 InversionOfControl 来侦察程序集部分应用程序域 方法是 appDomain Ge
  • 在表单加载上使用进度条

    我正在尝试用 C 设计一个 WinForms 控件 它将在加载时从数据库中获取一些数据 我想用进度条来显示进度 我尝试了这段代码 以及许多其他代码 protected override void OnLoad EventArgs e bas
  • Django 中的“gettext()”与“gettext_lazy()”

    我有一个关于使用 ugettext 的问题gettext lazy 用于翻译 我了解到在模型中我应该使用gettext lazy 而在视图 ugettext 中 但是还有其他地方我应该使用吗gettext lazy 也 表单定义又如何呢 它
  • 给定两个整数列表,我们如何找到一个列表中与另一个列表中最接近的数字? [关闭]

    Closed 这个问题需要多问focused 目前不接受答案 鉴于我有两个不同的整数列表 a 1 4 11 20 25 and b 3 10 20 我想返回一个长度列表len b 存储最接近的数字a对于每个整数b 所以 这应该返回 4 11
  • Outlook 加载项崩溃或您的服务器管理员限制了您可以同时打开的项目数量

    我创建了一个简单的 Outlook 插件 用于将联系人从一个文件夹复制到另一个文件夹 约 5000 个联系人 为什么我需要这个 有一种奇怪的方法可以创建如上所述的公共地址簿here 那么为什么不复制公用文件夹中的所有联系人呢 我希望我的团队
  • 六边形联合图的 Seaborn 成对矩阵

    我正在尝试生成比较分布的成对图矩阵 像这样的东西 由于我有很多点 我想使用十六进制图来减少时间和绘图复杂性 import seaborn as sns import matplotlib pyplot as plt tips sns loa
  • 如何在制作 htmlhelp 时使用 Sphinx RTD 主题隐藏侧边栏

    使用时是否可以隐藏侧边栏Sphinx与ReadTheDocs theme 再扩展一下问题 我可以在发出命令时包含侧边栏吗 制作 html 并且不包括它发出命令 制作 htmlhelp 不改变代码 也许在layout html 中添加一些东西
  • JodaTime - 我如何知道指定时间段内是否发生夏令时?

    我需要知道该期间是否由以下定义 DateTime start DateTime end 里面有夏令时 我正在迭代由 start end 定义的周期集合 并在每次迭代中将开始和结束时间向前移动 24 小时 生成的周期从午夜开始 到下一个午夜之
  • 以编程方式将目标添加到按钮会引发错误“无法识别的选择器发送到类”

    不知道为什么当我尝试使用我在代码中创建的按钮时收到 无法识别的选择器发送到类 错误 这是我的代码 let sendButton UIButton let button UIButton type system button setTitle
  • 使用sparkr时我应该在工作节点上预安装cran r包吗

    我想在 cran 上使用 r 包 例如forecast等与sparkr并遇到以下两个问题 我应该在工作节点上预安装所有这些软件包吗 但是当我读spark的源码时这个文件 似乎spark会自动压缩包并通过 jars或 packages将它们分