R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

2024-05-08

在以下示例中：

  small.ints = to.dfs(1:1000)
  mapreduce(
    input = small.ints, 
    map = function(k, v) cbind(v, v^2))

MapReduce函数的数据输入是一个名为small.ints的对象，它引用HDFS中的块。

现在我有一个 CSV 文件已经存储在 HDFS 中

"hdfs://172.16.1.58:8020/tmp/test_short.csv"

如何获取它的对象？

据我所知（这可能是错误的），如果我想要 CSV 文件中的数据作为 mapreduce 的输入，我必须首先在 R 中生成一个表，其中包含 CSV 文件中的所有值。我确实有这样的方法：

data=from.dfs("hdfs://172.16.1.58:8020/tmp/test_short.csv",make.input.format(format="csv",sep=","))
mydata=data$val

使用这种方法获取mydata，然后执行object=to.dfs(mydata)似乎可以，但问题是test_short.csv文件很大，大约是TB大小，内存无法容纳from的输出.dfs!!

实际上，我想知道如果我直接使用“hdfs://172.16.1.58:8020/tmp/test_short.csv”作为mapreduce输入，并且内部map函数执行from.dfs()的事情，我是否能够获取数据块？

请给我一些建议，无论如何！

mapreduce(输入 = 路径, input.format = make.input.format(...), 地图 ...)

from.dfs 适用于小数据。在大多数情况下，您不会在map函数中使用from.dfs。参数已经保存了部分输入数据

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

Hadoop

rhadoop

R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？的相关文章

R：变换不规则时间字符串

我有两个不同的时间序列来自不同的数据帧具有不同的不规则格式但问题是相同的我只想提取小时分钟秒和毫秒时代系列看起来像这样 ts1 08 27 23 445 08 27 24 280 08 27 25 115 I tried st
反转默认比例梯度ggplot2

我是新手我正在尝试设计热图这是我的代码 ggplot gd aes Qcountry Q6 1 Q6d order TRUE geom tile aes fill prob colour white theme minimal labs
在 R 中读取 Stata 13 文件

有没有办法在 R 中读取 Stata 版本 13 数据集文件我尝试执行以下操作 gt library foreign gt data read dta TEAdataSTATA dta 但是我收到一个错误 read dta TEAdat
包检查时如何有效处理未压缩的保存？

在最近开发一个包的过程中我将数据集包含在data 我的包的文件夹在我的具体情况下我有 5 个数据集所有这些数据集都位于data table格式尽管我在下面描述的问题仍然存在如果我将它们保留为data frame 我已将每个人单独
R比例置信区间因子

我正在尝试总结家庭调查的数据因此我的大部分数据都是分类因子数据我想用对某些问题的回答频率图来总结它例如回答某些问题的家庭百分比的条形图误差线显示置信区间我发现了这个很棒的教程我认为它是我祈祷的答案 http www coo
udunits2 R 安装：找不到 udunits2.h

我正在尝试在 R 中安装 udunits2 以满足对ggforce包裹但是安装程序在检查 udunits2 时始终失败我已经尝试过中的说明this https stackoverflow com questions 47059517
Dplyr 多重滞后整齐评估？

我试图在 dplyr 中使用尽可能少的代码来实现多个滞后同时坚持整洁的评估以下标准评估 SE 代码有效 if require dplyr install packages dplyr library dplyr a as tibble
Hive：在查询中将 array 转换为 array

我有两张桌子 create table a 1 array
解释 survreg 中的威布尔参数

我正在尝试使用从 R 中的 survreg 估计的参数生成逆威布尔分布我的意思是对于给定的概率这将是在 MS Excel 中实现的小型模拟模型中的随机数返回使用我的参数预计出现故障的时间我理解逆威布尔分布的一般形式是 X b l
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
如何在 Shiny 中动态渲染的 textInput 添加样式元素

你好堆栈溢出在我最近提出的问题中我已经解决了一些与动态渲染 UI 元素相关的主要问题并在一些了不起的人的帮助下动态创建了观察者参见此处动态渲染的 UI 如何在第二次运行时删除旧的反应变量 https stackoverflow c
分割单个 SpatialPolygons 对象的多边形部分

在 R 中我有一个SpatialPolygons包含数百个多边形的对象即多个多边形我想分割这个SpatialPolygons对象放入列表中Polygons 即孔应保持连接到父多边形知道如何做到这一点吗 EDITED 使用以下提供的示
使用 R 中的 tidyverse 重新调整因子和重新排序因子

我想使用这些功能重新调平 and 重新排序在我的数据框中我了解重新调整级别的工作原理但我不明白为什么我在 data frame 中看不到级别的变化例如假设我有鸢尾花数据集 library tidyverse head iris g
是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
如何在 R 中查找平衡面板数据（又名，如何查找面板中的哪些条目在给定窗口内完整）

我有来自 Compustat 的大量数据我向其中添加了一些手工收集的数据认真地从一堆旧书中手工收集但我不想手工收集整个面板只想随机选择一个子集为了找到更大的集合我从中随机选择我想从 Compustat 的平衡面板开始我看到p
无法在 Powershell 中运行 R.exe

我经常发现在命令行 Windows 上运行 R 更有用然而当我在 Powershell 中尝试时我往往会遇到问题但这可以通过第一次运行轻松克服cmd然后就可以了这是我执行此操作时遇到的错误R CMD BATCH Invoke Hi
在 R Shiny 中显示/隐藏整个框元素

我目前正在尝试找到一种方法来隐藏显示 R Shiny 中的整个 box 元素以及里面的所有内容我想创建一个可能的按钮它允许用户展开特定框然后使用相同甚至不同的按钮隐藏它我不想使用条件面板因为我的应用程序非常大并且会产生一些
当我将文件存储在 HDFS 中时，它们会被复制吗？

我是 Hadoop 新手当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中复制因子为3 我的问题是是否需要3份并分别存储到3个节点中这是 HDFS 工作的漫画 https docs
如何根据查找表匹配多列

我有以下两个数据框 lookup lt data frame id c A B C price c 1 2 3 results lt data frame price 1 c 2 2 1 price 2 c 3 1 1 我现在想要浏览所有列
如何处理包内部的 R 数据？

我正在开发的 R 包需要多个 R 数据对象例如预先计算的模型和参数目前我将包的数据目录中的每个对象放在单独的 RData 文件中使用该包时用户可以使用数据功能将这些对象附加到他们的环境中我想要的行为是在加载包时数据对

随机推荐

测试由于浮点限制而导致的舍入误差

我最近了解到浮点的主要限制之一事实上某些数字无法以二进制正确表示因此可能给出的答案对于您的目的来说不够准确知道round 2 675 2 and round 2 665 2 两者相等2 67我尝试编写一些代码来给出具有此属性的数字列
访问 java jigsaw 模块中的资源文件[重复]

这个问题在这里已经有答案了我正在尝试从项目中的类访问 Eclipse 项目中的文件我需要将该项目声明为 jigsaw 模块才能从其他项目访问它但是通过这样做我无法再访问项目中的 example png 等文件这是我的项目结构 pr
如何将 Content-Type 更改为 application/json React

我正在使用 axios 从 api 获取内容我想使用 axios 在 React 中将 Content Type 设置为 application json 需要纠正什么下面是参考代码 const config headers Conte
React router v4 嵌套路由相对路径

我有一个带有 React Router v4 的组件到另一个组件我想在第二个组件中添加另一个路由这是主要路线 const Dashboard gt return div div
使用 CSS 创建钟形

我正在玩CSS中的形状想要制作一个传统的钟形想想圣诞钟声这是我想要的一般形状尽管我真的不关心顶部和底部的球这是我到目前为止所拥有的 http jsfiddle net bhlaird NeBtU http jsfiddle net
如何重新运行成功的 azure devops YAML 管道阶段以及后续的任何阶段？

阶段 A gt B gt C gt D C 失败并出现错误暗示阶段 B 的输出存在问题尽管它成功了作为失败的阶段我可以重新运行 C 如果成功 D 将运行在本例中它仍然失败我可以重新运行 B 它再次成功但是 C 和 D 被跳过
如何通过模板中的变量访问对象字段？

我有一个嵌套循环 columns columns range dx dataList range c columns index dx c end end dataList是orm模型数组和ID Title字段那么columns is
如何制作自己的 while 循环，就像 WordPress 循环一样？

我是新来的也是 PHP 新手只是想知道如何制作我自己的灵活循环就像在 WordPress 中一样注意我不是在谈论 wordpress 我想在我自己的 PHP 应用程序上实现它我们回顾一下WP 有一段代码是这样的 while hav
使用 memcpy 复制二维数组？

所以我想将二维数组的内容复制到另一个完全相同类型的数组以下是数组的创建方式 GridUnit newGrid newGrid new GridUnit width for int i 0 i lt width i newGrid i ne
喷气背包组合中的波纹效果无法正常工作

我正在研究jetpack compose中的连锁反应我提供了我的颜色单击视图后它会在一段时间后显示不同类型的颜色在按下状态时显示为深灰色 binding itemComposable setContent Column modifi
Python、PEP-8、E122 连续行缺少缩进或缩进

我收到此错误但无论我选择缩进它我仍然收到它你知道为什么吗 if len argmaxcomp 1 print The complex with the greatest mean abundance is 0 format argma
删除队列对象数组

我正在研究一个包含数组的对象queues数组长度在调用构造函数之前才确定基本上看起来像下面这样 include
如何过滤javascript对象数组

我有两个数组我正在使用 PubSidebar 过滤基于 groupKey 的内容 let groupKey oaDeal Journals Deposit This array of object will be filtering wi
如何用Python实现FIR高通滤波器？

首先我在 Stack Exchange 中问了这个问题我只得到与概念相关的答案而不是面向实现的答案所以我的问题是我正在尝试创建高通滤波器并使用 Python 实现 from numpy import cos sin pi abso
Scala 对大数的阶乘有时会崩溃，有时不会

以下程序经过编译和测试有时返回结果有时充满屏幕 java lang StackOverflowError at scala BigInt apply BigInt scala 47 at scala BigInt equals BigI
CSS 文本装饰：反向

我很惊讶 CSS 中没有 text decoration reverse 因为使用 JavaScript 来实现似乎非常尴尬 IE 将元素的前景色和背景色分别设置为父元素的背景色和前景色我注意到了 JavaScript 技术here ht
C++：从字符串中删除所有 HTML 格式？

我有一个字符串其中可能包含 br 或 span span 标签或其他 HTML 字符实体我想要一种强大的方法来剥离所有这些并获取剩余的 UTF 8 字符理想情况下这应该是跨平台的像这样的东西是理想的 http snipplr c
根据质量和弹跳系数计算球与球碰撞的速度和方向

我基于以下代码使用了this http en wikipedia org wiki Elastic collision One dimensional Newtonian ballA vx u1x m1 m2 2 m2 u2x m1 m2
Yii：按条件进行多重排序

我正在使用 CActiveDataprovider 显示来自不同表的数据现在我遇到了一个问题我有两个表项目和类别它们都有priority order 列我需要使用这两个列的顺序来显示数据例如有两个类别和属于这些类别的六个项目
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的

R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？ 的相关文章

随机推荐

热门标签

R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？的相关文章