HDFS 文件系统的 URL

2024-02-23

我在 HDFS 中有一些数据/user/Cloudera/Test/*。我可以通过运行很好地查看记录hdfs -dfs -cat Test/*.

现在同一个文件，我需要在 scala 中将其读取为 RDD。我在 scala shell 中尝试了以下操作。

val file = sc.textFile("hdfs://quickstart.cloudera:8020/user/Cloudera/Test")

然后我编写了一些过滤器和 for 循环来读取单词。但是当我使用Println最后提示找不到文件。

谁能帮我知道在这种情况下 HDFS url 是什么。注意：我使用的是Cloudera CDH5.0 VM

如果您尝试在 Spark 作业中访问您的文件，那么您只需使用 URL

val file = sc.textFile("/user/Cloudera/Test")

Spark 会自动检测该文件。您不需要添加 localhost 作为前缀，因为 Spark 作业默认从 HDFS 目录读取它们。

希望这能解决您的疑问。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

Hadoop

Cloudera

Bigdata

HDFS 文件系统的 URL 的相关文章

（R 错误）错误：cons 内存耗尽（达到限制？）

我正在处理大数据并且有一个 70GB 的 JSON 文件我正在使用 jsonlite 库将文件加载到内存中我尝试过 AWS EC2 x1 16large 机器 976 GB RAM 来执行此负载但 R 因错误而中断 Error co
如何在 Scala 中编写 Pig UDF

我正在尝试在 Scala 中编写 Pig UDF 使用 Eclipse 我已将 pig jar 添加为 java 构建路径中的库这似乎解决了以下 2 个导入问题导入 org apache pig EvalFunc 导入 org apac
覆盖 Predef 的隐式转换

我有多个返回 java lang Integer 的方法然后使用 Scala 的 Predef 隐式转换将其隐式转换为 Int 下面是它的编写方式there https github com scala scala blob v2 11
Scala 中奇怪的类型不匹配

我希望这个问题还没有在其他地方得到解答在这里没有找到答案在我的本地化系统中我有一个名为 Language 的类 class Language val name String dict HashMap String String def
Scala REPL 中的递归重载语义 - JVM 语言

使用 Scala 的命令行 REPL def foo x Int Unit def foo x String Unit println foo 2 gives error type mismatch found Int 2 required
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
Haskell scala 互操作性

我是 Scala 初学者来自面向对象范式在了解 Scala 的函数式编程部分时我被引导到 Haskell 纯函数式编程语言探索 SO 问题答案我发现 Java Haskell 具有互操作性我很想知道 Scala Haskell
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
IntelliJ IDEA 13：新的 Scala SBT 项目尚未生成 src 目录结构

我按照 Jetbrains 网站上的入门视频设置 IntelliJ IDEA 13 1 Community Edition 以与 Scala 配合使用 Scala 插件 v0 36 431 已安装当我使用向导创建一个新的 Scala SB
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
高效序列化案例类

对于我正在工作的图书馆我需要提供一个高效便捷 typesafe序列化 scala 类的方法理想的情况是用户可以创建一个案例类并且只要所有成员都是可序列化的它似乎也应该如此我准确地知道序列化和反序列化阶段的类型因此不需要也不能
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
为什么用scala写的代码比用java写的慢6倍？

我不确定我在编写 scala 代码时是否犯了一些错误问题是 The four adjacent digits in the 1000 digit number that have the greatest product are 9 9
如何在映射中将字符串转换为 Seq[String]

我有一个Map String String 以及需要的第三方功能Map String Seq String 有没有一种简单的方法来转换它以便我可以将地图传递给函数 original mapValues Seq 注意mapValues返回地
Java 8 Stream，获取头部和尾部

Java 8 引入了Stream http download java net jdk8 docs api java util stream Stream html类似于 Scala 的类Stream http www scala lang
解决“Show”类型类实例的隐式问题

我正在努力使Gender实施Show类型类 scala gt trait Gender extends Show Gender defined trait Gender scala gt case object Male extends G

随机推荐

单击按钮时动态加载用户控件的问题

我有一个页面我在其中动态加载用户控件如下所示默认 aspx
我在函数内部使用 for 循环创建了一个对象，但在尝试打印时出现错误：找不到打印对象

我在如下所示的循环中创建了一个对象 obs 并且循环返回 obs 但是当我尝试打印 obs 时我收到一条消息未找到 obs 我是 R 编程新手我迷路了我尝试用谷歌搜索这个问题但没有找到答案 complete lt functio
使用 Devise 在具有子域的多租户站点上自动登录用户

在我的应用程序中客户在 mysite com 上注册注册完成后他们将获得一个网站例如 customer mysite com 我正在使用 Devise 并希望客户立即登录到他们的网站我正在使用多租户如中所述Rails在这里投射
如何在iOS上创建漂亮的按钮？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我不确定这是否是一个完全愚蠢的问题我只是没有看到它但我只是明白了苹果公司在很多场合都使用过这个漂亮的闪亮按钮例如跑表现在如
汇编器如何在硬件级别工作？

我一直在网上阅读有关汇编器工作的信息但它非常令人困惑总结到目前为止我所理解的是汇编器基本上是一个文本解析器可以访问查找表以将汇编语言指令映射到等效的二进制指令我对么如果是的话这个查找表存在于 CPU 的物理硬件中的什么位置 C
go 基准测试中 allocs/op 和 B/op 是什么意思？

当我运行基准测试时go test v bench benchmem 我看到以下结果 f1 10000 120860 ns op 2433 B op 28 allocs op f2 10000 120288 ns op 2288 B op 2
Python - 使用点列表从网格 NetCDF 中提取数据，无需 for 循环

以下示例使用东风的 Unidata 样本 netCDF 数据集可以从这里下载的 https www unidata ucar edu software netcdf examples sresa1b ncar ccsm3 example
使用 Javascript 的 Chromeless 播放器中的全屏选项？

我正在使用 Youtube Javascript API 来开发 chromeless 播放器你能告诉我如何在播放器上使用 Javascript 添加开发全屏控制吗 YouTube api 中当前不存在此内容相反您可以使用 ja
如何每年自动更改年龄

我写了这个程序但我有一个变量年龄我该如何做才能不必每年改变狗的年龄换句话说它应该自动改变你应该保存生日而不是保存年龄这样可以在需要时计算年龄
ng2-charts + 如何自定义X轴标签的位置？

我在用着https valor software com ng2 charts https valor software com ng2 charts 用于生成以下图表 Expected Graph Actual Graph Right n
Jest＆material-ui：如何测试特定图标的存在？

我最近将一个应用程序迁移到我喜欢的 mui v4 还完成了更新我们使用 jest enzyme 运行的测试套件例如我现在喜欢mount代替shallow 一个问题是我找不到一种方法来测试图标的存在在撰写本文时我正在使用所有最新版本的m
如何在进程结束后自动关闭`qemu`的执行？

我想要的是qemu打开并显示输出后的窗口运行后自动关闭pintOS 就像我运行命令时一样pintos run alarm multiple in tcshshell qemu 显示过程开始然后一些alarm notifications然后
无法找到 ASP.NET CodeDom 提供程序错误

我在服务器上部署时遇到 ASP NET 错误无法找到 CodeDom 提供程序类型 Microsoft CodeDom Providers DotNetCompilerPlatform CSharpCodeProvider Microso
如何使用 LaunchDaemons (launchd) 启动 Program.app？

我放置了以下内容com apple test plist文件夹中的文件系统库 LaunchDaemons
跨服务器SQL

我想将数据从一台服务器的数据库移植到另一台服务器的数据库这两个数据库都位于不同的 mssql 2005 服务器上复制可能不是一个选项因为目标数据库是按时间间隔从头开始生成的我最好会做类似的事情 insert from db1 t
如何使用 Razor 引擎在 MVC 5 项目上添加日期选择器 Bootstrap 3？

我需要一些关于如何安装的指南日期选择器 http eternicode github io bootstrap datepicker 使用 Razor 引擎的 MVC 5 项目上的 Bootstrap 3 我找到了这个链接here http
Matplotlib Figsize 不受尊重[重复]

这个问题在这里已经有答案了我想用 matplotlib 绘制一个正方形图也就是说我希望整个图形是正方形的当我使用以下代码时生成的图像的宽度仍然比高度大一点为什么 matplotlib 不尊重我提供的 Figsize import
当我们有客户端会话时，为什么需要 JWT？

据我所知 JWT 是无状态令牌它存储有关客户端声明的签名信息并通过授权 HTTP 标头传递到服务器我的问题是当我们已经有了客户端会话时为什么还需要 JWT https github com mozilla node client
将数字转换为时间

如何将数字 1 33408564814814 转换为时间 32 01 05 如果您确实想要结果作为字符串您可以使用如下函数 set serveroutput on format wrapped declare function days
HDFS 文件系统的 URL

我在 HDFS 中有一些数据 user Cloudera Test 我可以通过运行很好地查看记录hdfs dfs cat Test 现在同一个文件我需要在 scala 中将其读取为 RDD 我在 scala shell 中尝试了以下操作

HDFS 文件系统的 URL

HDFS 文件系统的 URL 的相关文章

随机推荐

热门标签