Spark中saveAsTextFile时如何命名文件？

2024-04-03

在 Spark 版本 1.5.1 中另存为文本文件时，我使用：rdd.saveAsTextFile('<drectory>').

但是如果我想在该目录中找到该文件，我该如何命名它呢？

目前，我认为它的名字是part-00000，这必须是某种默认值。我该如何给它命名？

这个问题的正确答案是saveAsTextFile不允许您命名实际文件。

其原因是数据已分区并且位于作为调用参数给出的路径内saveAsTextFile(...)，它会将其视为一个目录，然后为每个分区写入一个文件。

您可以致电rdd.coalesce(1).saveAsTextFile('/some/path/somewhere')它将创造/some/path/somewhere/part-0000.txt.

如果您需要比这更多的控制，则在执行完以下操作后，您将需要在您的终端上执行实际的文件操作rdd.collect().

请注意，这会将所有数据拉入一个执行程序，因此您可能会遇到内存问题。这就是你要承担的风险。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

RDD

Spark中saveAsTextFile时如何命名文件？的相关文章

如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
如何从字符串列中提取数字？

我的要求是从列中的评论列中检索订单号comment并且总是开始于R 订单号应作为新列添加到表中输入数据 code id mode location status comment AS SD 101 Airways hyderabad D
PySpark：如何将带逗号的列指定为小数

我正在使用 PySpark 并加载csv文件我有一列包含欧洲格式的数字这意味着逗号替换点反之亦然例如我有2 416 67代替2 416 67 My data in csv file looks like this ID Reven
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr

随机推荐

如何在Excel中无法以图形方式显示的外部数据查询中添加参数？

我经常使用 MS ExcelGet External Data创建简单的报告对数据库运行查询并在 Excel 中很好地显示 Excel 的强大功能例如过滤和数据透视表以及用户熟悉的界面使其非常适合此目的但是 Microsoft Qu
如何反转 go 中的切片？

如何反转任意切片 interface 在 Go 中我宁愿不必写Less and Swap to use sort Reverse 有没有一种简单的内置方法可以做到这一点 Use 切片反转 https pkg go dev slices
错误：我们没有使用 Azure CLI 的有效访问权限

我是 Azure CLI 的新用户所以我昨天开始使用它一切正常直到我在控制台上收到一条消息要求我使用 Azure 登录命令再次登录我按照消息所说的做了打开我的浏览器并输入代码浏览器加载页面一切正常但是当我进入控制台窗口
如何在 Maven 中创建校验和然后将其输出到文本文件？

还在学习如何使用Maven 我想知道是否有办法做到checksum在生成的WAR file The Maven目标是package 我想要实现的是得到一个checksum价值包装的WAR文件与打包文件一起放入文本文件中提前致谢让它与
当我移动轨迹栏时，如何防止 Windows 通用控件 6.0 中的控件（选项卡）闪烁和消失？

滑动滑动条并释放鼠标按钮时整个窗口都会闪烁并且选项卡会消失当我使用旧版本时一切正常当我使用新的 Microsoft Windows Common Controls ver 6 0 时出现此问题 include
Flink 检查点到 Google Cloud Storage

我正在尝试为 GCS 中的 flink 作业配置检查点如果我在本地运行测试作业没有 docker 和任何集群设置一切正常但如果我使用 docker compose 或集群设置运行它并在 flink 仪表板中使用作业部署 fat ja
Android 中的文本转语音完成后立即播放音频文件

我正在尝试开发一个 Android 应用程序一旦文本到语音完成就必须播放音频文件这个怎么做如果我没有理解错的话您想使用文本转语音来读取一些文本同时将语音音频存储到手机中然后再播放音频你检查过吗录音测试 http develo
Mesos 任务 - 无法接受套接字：未来已丢弃

我只是想将 mesos 版本从 1 0 3 升级到 1 3 1 Chronos 调度程序能够通过 mesos 调度作业该作业运行良好并且能够查看 mesos 标准输出日志但是仍然在 mesos stderr 日志中看到以下内容 doc
使用 MySQL 进行 SVN 身份验证

我正在尝试通过 MySQL 设置每个存储库 SVN 身份验证但遇到一些问题首先两者有什么区别mod authn dbd and mod auth mysql 其次我已经有一个 MySQL 数据库设置其中包含用户组和权限的表是否
如何从 Amplify 生成的 Lambda 函数中访问其他 AWS 资源？

我一直在使用 AWS Amplify 作为 AWS 的新手我非常喜欢 Amplify 如何在 AWS 上为我配置必要的资源和 IAM 角色我的问题是关于将 Lambda 与 GraphQL 结合使用按照文档我可以创建一个自定义 Gr
可以使用反射覆盖 IEnumerable 中的项目吗？

不顾任何合理的理由这样做只是出于好奇是否可以获取任何给定的 IEnumerable T 并覆盖其中包含的项目例如给定 IEnuemrable String 是否可以完全替换 IEnumerable 中的所有字符串正如其他人所说如果
背景尺寸：包含

我想要一个带有背景图像的 div 保持图像的纵横比固定高度为 500px 并且我不希望该 div 的背景上有填充这可以吗我可以获得一个具有固定高度和保持宽高比的背景图像的 div div style background url s
如何使用 Google 字体更改 Bootstrap 默认字体系列？

我正在创建一个博客网站我想更改 Bootstrap 字体在 header 中的 import CSS 中我添加了这个字体如何使用它作为我的引导程序默认字体首先你不能通过这种方式将字体导入到 CSS 中您可以在 HTML 头中添加
Swift 中的元组是否可以完全替代 C# 中的匿名类型

Like C 中的匿名类型 http msdn microsoft com en us library bb397696 aspx 新推出的语言 Swift 中的元组可以做 C 中的匿名类型可以做的事情吗在学习 swift 时我发现了一
如何打开图像并在其上绘图

我正在创建一个应用程序人们可以在其中绘制草图并保存到图库中这我已经完成并且运行良好我希望能够从画廊中获取一张图像并能够在其上进行绘制我已经能够打开图库来选择图像但我无法弄清楚如何将该图像嵌入到画布上然后进行绘制但问题是它打开了
存储过程返回 int 而不是结果集

我有一个包含动态选择的存储过程像这样的事情 ALTER PROCEDURE dbo usp GetTestRecords p1 int 0 p2 int 0 groupId nvarchar 10 0 AS BEGIN SET NOCOU
ES6 类中的 ES6 函数、箭头函数和“this”[重复]

这个问题在这里已经有答案了 class App extends Component constructor props onChange e gt this setState term e target value onSubmit e e
CouchDB 和 Couchbase 有什么区别？

之间有什么本质区别吗CouchDB http couchdb apache org and 沙发底座 http www couchbase com 我认为CouchDB和Couchbase Server之间有一些本质的区别需要指出我不会写
在自定义大小的浏览器窗口中使用批处理文件打开链接

我想创建一个批处理文件它将打开一个应用程序和一个链接我们的想法是在桌面上的快捷方式文件中使用此批处理文件以便一键单击应用程序和 URL 链接示例 www google com 应打开但浏览器大小应自定义例如 600 600 请建议
Spark中saveAsTextFile时如何命名文件？

在 Spark 版本 1 5 1 中另存为文本文件时我使用 rdd saveAsTextFile

Spark中saveAsTextFile时如何命名文件？

Spark中saveAsTextFile时如何命名文件？ 的相关文章

随机推荐

热门标签

Spark中saveAsTextFile时如何命名文件？的相关文章