如何从 R 中的流式 MapReduce 作业获取文件名?

2023-12-08

我正在流式处理 R mapreduce 作业,并且需要获取文件名。我知道 Hadoop 在当前作业启动之前设置环境变量,并且我可以使用 Sys.getenv() 访问 R 中的环境变量。

我发现 :获取流式hadoop程序中的输入文件名

和 Sys.getenv(mapred_job_id) 工作正常,但这不是我需要的。我只需要文件名,不需要作业 ID 或名称。我还发现:在EC2上运行mapreduce作业时如何获取文件名?

但这也没有帮助。从 R 流式传输时获取当前文件名的最简单方法是什么?谢谢


我还没有尝试过这个,但是从您提供的第二个链接来看,这似乎在一个名为的环境变量中可用map.input.file。然后,这应该有效:

Sys.getenv("map.input.file")

编辑: 经过进一步调查,我了解到您需要用下划线替换点,所以这是这样做的方法:

Sys.getenv("map_input_file")

然而,YARN 中已弃用 map.input.file 属性(Hadoop 2.x),因此应使用新名称:

Sys.getenv("mapreduce_map_input_file")
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何从 R 中的流式 MapReduce 作业获取文件名? 的相关文章

  • 从命令提示符/批处理文件添加环境变量

    我正在尝试在批处理文件中添加环境变量 系统 以下命令显示错误 语法无效 有人可以帮忙吗 对我来说它看起来不错 reg add HKLM SYSTEM CurrentControlSet Control Session Manager Env
  • 在 RcppArmadillo 中将列向量乘以数值标量

    我在编译这个简单的程序时遇到一些麻烦c 代码使用Rcpp和RcppArmadillo包裹 采用以下简单示例 将矩阵的每一列乘以数值标量 code lt arma mat out Rcpp as
  • 闪亮的应用程序包:css 和所有 www/ 目录内容

    我正在尝试将 Shiny 应用程序转换为 R 包 但我在处理有关 www 目录以及 松散 文件的所有问题时遇到了问题 我闪亮的应用程序运行得很好 但是当我尝试 打包它 时 它不起作用 我闪亮的应用程序目录 my shiny app R ut
  • R - 重塑 - 熔化错误

    我正在尝试融化数据框 但出现了这个奇怪的错误 有什么想法吗 str zx7 data frame 519 obs of 5 variables calday new Date format 2011 01 03 2011 01 04 201
  • 如何按定义的顺序将图像合并到一个文件中

    我有大约 100 张图像 png 我不想手动执行此操作 而是希望将它们按照定义的顺序 基于文件名 并排放置在一个 pdf 中 每行 12 个图像 有人有什么建议吗 我按照下面托马斯告诉我的方法尝试了 它把它们贴在旁边有一个黑边 我怎样才能去
  • data.table 抛出“找不到对象”错误[重复]

    这个问题在这里已经有答案了 我有一个数据表 library data table mydt lt data table index 1 10 当我在全局环境中尝试它时 我可以让它工作 但当我在调试器中或在包测试中使用它时却无法工作 问题是我
  • 为什么这个 R ggplot2 代码会显示一个空白的显示设备?

    虽然 SO 通常不用于帮助解决错误 但这个显示了特别简单且特别烦人的行为 如果你是一个ggplot2用户 您可以在 10 秒或更短的时间内重现它 正如这个 GitHub 问题 ggplot gtable 创建空白显示 https githu
  • dplyr:连接中的 NSE (by)

    我很难弄清楚如何使用 dplyr left join 和 NSE 连接两个表 问题是我无法为 by 提供正确的值 我想我现在已经找到了解决方案 但感觉我正在以一种额外复杂的方式来做 因此 如果您知道更简单 更优雅的解决方案 请告诉我 这就是
  • R:按组,测试一个变量的每个值是否存在于另一个变量中

    我有一个数据框架 结构如下 a lt c 1 1 1 2 2 2 3 3 3 3 4 4 b lt c 1 2 3 1 2 3 1 2 3 4 1 2 c lt c NA NA 2 NA 1 1 NA NA 1 1 NA NA df lt
  • case_when 与部分字符串匹配和 contains()

    我正在使用一个数据集 其中有许多名为 status1 status2 等的列 在这些列中 它表示某人是否豁免 完整 注册等 不幸的是 豁免投入并不一致 这是一个示例 library dplyr problem lt tibble perso
  • 使用点阵个性化 R 上显示的 X 轴值

    我收集了大量包含日期 客户端及其 NFS 使用情况的数据 我正在使用lattice R包进行绘图 正如对超级用户的建议 https superuser com questions 523195 plot custom log data on
  • R 中 SVG 图形的最佳设备? [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我想从 R 导出 SVG 图形 似乎有两种选择 RSvgDevice 和 Cairo 有人可以对这些包发表评论吗 是默认的还是明显比另一个
  • R - 基于列名称的子集

    我的数据框有超过 120 列 变量 我想根据列名称创建子集 例如 我想创建一个子集 其中列名称包含字符串 心情 这可能吗 我一般用 SubData lt myData grep whatIWant colnames myData 我很清楚
  • 在 Google Colab 上的 R 笔记本中安装 python 库

    我正在尝试在 Google Colab 上的 R 笔记本中安装 python 库 为此我使用 reticulate 包 library reticulate py install pandas 但我得到的结果是这个错误 Error coul
  • 无法将“gather”输出的列名称更改为默认名称以外的任何名称

    我正在尝试使用gather in the tidyr包 但我无法更改默认名称的输出列名称 例如 df data frame time 1 100 a 1 100 b 101 200 df long df gt gather foo bar
  • 更改 R 中 ggplot geom_polygon 的颜色方案

    我正在使用地图库和 ggplot 的 geom polygon 创建地图 我只是想将默认的蓝色 红色 紫色配色方案更改为其他颜色 我对 ggplot 非常陌生 所以如果我没有使用正确的数据类型 请原谅 我使用的数据如下所示 gt head
  • R 数据结构的运算效率

    我想知道是否有任何关于操作效率的文档R 特别是那些与数据操作相关的 例如 我认为向数据框添加列是有效的 因为我猜您只是向链接列表添加一个元素 我想添加行会更慢 因为向量保存在数组中C level你必须分配一个新的长度数组n 1并将所有元素复
  • 在闪亮的数据表中为每个单元格显示工具提示或弹出窗口?

    有没有什么方法可以为 r闪亮数据表中的每个单元格获取工具提示 有很多方法可以获取悬停行或列 但我找不到一种方法来获取行和列索引并为每个单元格显示不同的悬停工具提示 任何人都可以修改以下代码吗 library shiny library DT
  • R:改变堆积条形图的颜色

    library ggplot2 df2 lt data frame supp rep c VC OJ each 3 dose rep c D0 5 D1 D2 2 len c 6 8 15 33 4 2 10 29 5 head df2 g
  • 如何在R中实现countifs函数(excel)

    我有一个包含 100000 行数据的数据集 我尝试做一些countifExcel 中的操作 但速度慢得惊人 所以我想知道R中是否可以完成这种操作 基本上 我想根据多个条件进行计数 例如 我可以指望职业和性别 row sex occupati

随机推荐

  • WPF TreeViewItem 切换按钮可见性

    我遇到了一个问题 希望有人能帮我解决 我遇到过这样的情况 我的节点包含一组可见性设置为 false 的子节点 我希望如果 TreeViewItem 的所有子项都是不可见的 我可以禁用 TreeViewItem 旁边的切换箭头 这可能吗 这是
  • 如何对 Flash 对象使用 display none 和 block?

    我已经嵌入了一些 Flash 如下所示 div style display none div
  • SQL Server 锁定的 DataReader 行为

    当通过 SQL Server 查询返回大型数据集时 我们的数据层会遇到一些问题DataReader 当我们使用DataReader要填充业务对象并将它们序列化回客户端 获取可能需要几分钟 我们正在向用户显示进度 但我们发现受影响的表上正在进
  • JavaScript 是否有集合数据结构的实现?

    我正在寻找 JavaScript 中集合数据结构的合适实现 它应该能够支持纯 JavaScript 对象的元素 到目前为止我只发现闭包库的structs Set 但我不喜欢它修改我的数据 ECMAScript 6 有它 Spec http
  • 序列化和反序列化期间如何调用构造函数?

    序列化和反序列化过程中如何调用构造函数 什么时候有一个类实现可序列化 当存在父 子关系并且只有子实现可序列化时 当存在父子关系并且父子都实现了可序列化时 在反序列化期间 为继承层次结构中未实现 Serialized 的第一个类调用可访问的默
  • 如何编写迁移以使用ManyToManyField更改模型的主键

    我有一个UserProfile指的是我的模型User模型与一个OneToOneField 我也用post save信号自动创建UserProfile当用户被创建时 除了通过管理员创建用户 我使用内联 时 当我收到有关重复配置文件的错误时 这
  • 有没有办法在不调用另一个函数的情况下从成功处理程序中获取值?

    好的 现在我正在这样做 google script run withSuccessHandler updateOutput withFailureHandler errorOutput finish 进而 function updateOu
  • 50 次迭代后,常数“pi”的近似值并没有变得更好

    在 R 中我写了这个函数 ifun lt function m o c for k in 1 m o k prod 1 k prod 2 1 k 1 o sum 2 1 sum o Final result print o sum 该函数近
  • Android Room:使用 Room 插入关系实体

    我在 Room 中添加了一对多关系Relation 我提到这个帖子在 Room 中为关系编写以下代码 这篇文章讲述了如何从数据库读取值 但将实体存储到数据库中会导致userId为空意味着这两个表之间没有关系 我不确定什么是理想的方式inse
  • 管理员访问白名单IP地址

    我的网站上有一个区域 我只想允许少数人访问 我的代码现在仅适用于一个 IP 地址 但我希望能够添加更多 这是我正在使用的 ipaddress SERVER REMOTE ADDR if ipaddress 111 111 111 111 A
  • OpenGL 旋转 - 局部轴与全局轴

    因此 我尝试根据偏航 俯仰和滚动方案旋转一个对象 相对于该对象自己的局部轴而不是全局空间的轴 根据this 我需要按该顺序执行轮换 我将其解释为 glRotatef m Rotation y 0 0 1 0 0 0 glRotatef m
  • Cordova chrome.socket API。有什么例子吗?

    我正在尝试使用 org chromium socket 插件 但我找不到很多例子 这是我的代码 var connButton document getElementById connButton connButton addEventLis
  • 标准 TFlite 对象检测模型在 MLKit 中不起作用

    如果我使用预训练的 TFLite 对象检测模型在 MLKit 中 我收到以下错误 CalculatorGraph Run failed in Run Calculator Open for node BoxClassifierCalcula
  • 如何离开办公室使用另一个邮箱

    我正在尝试使用 EWS EWS 托管 API 2 0 获取给定邮箱的 离开办公室 设置 设置如下 单个 服务帐户 邮箱 可读取其他邮箱日历和外出设置 使用 EWS 托管 API 可以轻松完成日历部分 但我似乎无法弄清楚如何使用 API 获取
  • 将 jquery 数据表导出到带有附加行的 Excel 不起作用 IE

    我正在尝试使用 jquery 导出按钮选项将数据表导出到 Excel 工作表 我希望在 Excel 文件中的表数据之前添加额外的行 我在小提琴中做了一个类似的演示https jsfiddle net xevpdeo1 17 它在 Chrom
  • 以编程方式将文件夹添加到 Finder 中的“位置”

    我正在尝试弄清楚如何以编程方式将文件夹添加到 Finder 的 位置 侧边栏 我已经看到了通过 Finder 首选项修改它的方法 但我也看到一些应用程序实际上将文件夹添加到侧边栏 如果有人对我应该查找的内容有任何建议 指示 我将不胜感激 这
  • 从向量对中获取值时出错

    为什么在访问对向量的迭代器中对的值时会出现以下错误 vector lt pair
  • 使用 php 从非公共 html 文件夹下载文件

    我有许多文件存储在服务器上 但不在 public html 目录中 这个想法是 登录的用户可以下载文件 使用 SESSION 变量来检查他们是否登录 但如果其他人使用他们的计算机 他们就无法在浏览器历史记录中看到直接文件路径 即使他们这样做
  • Gluon Mobile 项目不适用于 gradle 6

    我有一个 Gluon 移动项目 其 build gradle 如下所示 buildscript repositories jcenter google mavenCentral maven url http nexus gluonhq co
  • 如何从 R 中的流式 MapReduce 作业获取文件名?

    我正在流式处理 R mapreduce 作业 并且需要获取文件名 我知道 Hadoop 在当前作业启动之前设置环境变量 并且我可以使用 Sys getenv 访问 R 中的环境变量 我发现 获取流式hadoop程序中的输入文件名 和 Sys