Spark 中的 Hadoop DistributedCache 功能

2023-11-21

我正在寻找类似于Spark中Hadoop的分布式缓存的功能。我需要一个相对较小的数据文件(带有一些索引值)出现在所有节点中,以便进行一些计算。有什么方法可以在 Spark 中实现这一点吗?

到目前为止,我的解决方法包括将索引文件作为正常处理进行分发和减少,这在我的应用程序中大约需要 10 秒。之后,我将指示它的文件保留为广播变量,如下所示:

JavaRDD<String> indexFile = ctx.textFile("s3n://mybucket/input/indexFile.txt",1);
ArrayList<String> localIndex = (ArrayList<String>) indexFile.collect();    

final Broadcast<ArrayList<String>> globalIndex = ctx.broadcast(indexVar);

这使得程序能够理解变量的含义全球指数包含。到目前为止,这个补丁可能对我来说没问题,但我认为这不是最好的解决方案。对于更大的数据集或大量变量,它仍然有效吗?

注意:我使用的是在位于多个 EC2 实例的独立集群上运行的 Spark 1.0.0。


请看一下SparkContext.addFile()方法。 猜猜这就是您正在寻找的东西。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 中的 Hadoop DistributedCache 功能 的相关文章

随机推荐

  • Google Apps 脚本电子表格评论自动化

    今天我有一个关于 Google Apps 脚本的问题 特别是电子表格 我已经看过文档了here 是的 有关a的文档Sheet在电子表格中 但我一直无法找到我要找的东西 这是西奇 1 当在 Google 电子表格中编辑单元格时 我的函数会设置
  • 安装和运行 rcpp 时出错

    我对 R 还很陌生 所以对一个愚蠢的问题表示歉意 我正在尝试让 rcpp 运行 但我陷入了 R 的无限循环 要求我重新安装 RTools 我大致遵循了以下代码这篇博文 虽然第一次休息时我手动安装了所有东西 随后我又重新安装了几次 我正在运行
  • Java:负数右移

    我对负数的右移操作感到非常困惑 这是代码 int n 15 System out println Integer toBinaryString n int mask n gt gt 31 System out println Integer
  • 通过特定位置和经度获取屏幕坐标(android)

    我有一个增强现实的应用程序 其中存储了地铁 加油站 名胜古迹等信息以及相应的纬度和经度 现在 根据设备的方向 我将在设备的相机视图中显示每个站点的标记 类似于 Layar 和 Wikitude 找了三天没有间断 也没有找到人解释如何解决这个
  • 为什么 kinect 颜色和深度无法正确对齐?

    我已经研究这个问题很长一段时间了 并且我的创造力已经结束 所以希望其他人可以帮助我指明正确的方向 我一直在使用 Kinect 并尝试将数据捕获到 MATLAB 幸运的是 有很多方法可以做到这一点 我目前正在使用http www mathwo
  • 所有系统引用都缺少 Visual Studio 2013 NuGet Async

    我在 Visual Studio 2013 中设置了一个解决方案 团队项目 并且有一段时间为 NET Framework 4 0 安装了一个可用的 NuGet Microsoft Bcl 异步包 今天 当打开项目时 无法找到所有默认的 NE
  • 在@RequestParam中绑定列表

    我以这种方式从表单发送一些参数 myparam 0 myValue1 myparam 1 myValue2 myparam 2 myValue3 otherParam otherValue anotherParam anotherValue
  • 如何在选中时覆盖 Material UI 开关组件的样式?

    我想控制开关组件的颜色 无论是在选中还是未选中时 默认情况下它是红色的 我希望当开关状态为 球形旋钮 时为黄色checked true我希望它是灰色的 什么时候checked false I must通过使用来实现样式createMuiTh
  • 如何更改 Material-UI 滑块颜色

    我想更改 Material UI Slider 组件颜色 我尝试更改CSS样式但它不起作用 然后我尝试了中给出的解决方案this问题并应用了此代码 但它不起作用 获取Mui主题 const muiTheme getMuiTheme slid
  • Ruby 中的 Array.prototype.splice

    有朋友问我用Ruby最好 最高效的方式来达到JavaScript的效果spliceRuby 中的方法 这意味着不对数组本身或副本进行迭代 从索引开始处开始 删除长度项并 可选 插入元素 最后在数组中返回删除的项 这是误导性的 请参阅下面的
  • 创建android子项目时出错

    我通过安装了 cordova e Phonegapnpm install g 科尔多瓦 and npm install gphonegap分别 然后我通过创建了一个 HelloWorld 应用程序cordova 创建 HelloWorld
  • Android 4.0 中的 RemoteControlClient 是什么?

    我了解 StackOverflow 的规则 因此提前为提出这样的问题表示歉意主观问题 我尝试过文档但它说的是这样的 RemoteControlClient 允许公开要使用的信息 通过能够显示元数据 艺术品和媒体的远程控制 传输控制按钮 远程
  • 如何从 CefSharp 3 在本机浏览器中打开链接

    我需要在 CefSharp 3 的本机浏览器中打开链接 我需要在 CefSharp 3 的 chromium 浏览器中运行除表单之外的整个应用程序 当我单击表单的链接按钮 例如 注册按钮 它有一个指向注册表单的链接 时 我需要在本机浏览器
  • 带有 Flask 的 pyCUDA 给出 pycuda._driver.LogicError: cuModuleLoadDataEx

    我想在flask服务器 该文件直接使用即可正确运行python3但当使用相应的函数调用时失败flask 这是相关代码 cudaFlask py import pycuda autoinit import pycuda driver as d
  • 删除行后如何消除 rowid 编号中的间隙?

    Table tmp CREATE TABLE if not exists tmp id INTEGER PRIMARY KEY name TEXT NOT NULL 我插入了5行 select rowid id name from tmp
  • 如何检查嵌套引用中是否为 null

    寻找一些最佳实践指导 假设我有一行这样的代码 Color color someOrder Customer LastOrder Product Color 其中 Customer LastOrder Product 和 Color 可以是n
  • RODBC 和 Microsoft SQL Server:截断长字符串

    我正在尝试使用 R RODBC 从 Microsoft SQL Server 数据库查询变量 RODBC 正在将字符串截断为 8000 个字符 原始代码 截断为 255 个字符 根据 ODBC 文档 library RODBC con st
  • 如何使用 Fish Shell 管理我的节点版本

    我昨天开始使用fish作为我的shell 今天我尝试使用yarn和tailwind在终端中运行我的NextJs应用程序 但出现了有关节点版本的错误 我检查了一下 然后发现当前版本是10 19 0 在我的 zsh shell 中 我安装了 N
  • UIAlertController - 将自定义视图添加到操作表

    当我们尝试附加屏幕截图中的图像时 我正在尝试制作如 iOS 上的消息应用程序中所示的操作表 我意识到在新的 UIAlertController 中 我们无法容纳任何自定义视图 我有什么办法可以做到这一点吗 我的代码看起来很标准 let al
  • Spark 中的 Hadoop DistributedCache 功能

    我正在寻找类似于Spark中Hadoop的分布式缓存的功能 我需要一个相对较小的数据文件 带有一些索引值 出现在所有节点中 以便进行一些计算 有什么方法可以在 Spark 中实现这一点吗 到目前为止 我的解决方法包括将索引文件作为正常处理进