使用 PySpark 在 HDFS 中保存并附加文件

2024-04-09

我在 PySpark 中有一个名为df。我已经注册了这个df as a temptable像下面这样。

df.registerTempTable('mytempTable')

date=datetime.now().strftime('%Y-%m-%d %H:%M:%S')

现在从这个临时表中我将获得某些值，例如列的 max_idid

min_id = sqlContext.sql("select nvl(min(id),0) as minval from mytempTable").collect()[0].asDict()['minval']

max_id = sqlContext.sql("select nvl(max(id),0) as maxval from mytempTable").collect()[0].asDict()['maxval']

现在我将收集所有这些值，如下所示。

test = ("{},{},{}".format(date,min_id,max_id))

我找到test不是一个data frame但这是一个str string

>>> type(test)
<type 'str'>

现在我想保存这个test作为文件HDFS。我还想将数据附加到同一文件中hdfs.

我如何使用 PySpark 做到这一点？

仅供参考，我正在使用 Spark 1.6，无法访问 Databricksspark-csv包裹。

在这里，您只需要将数据与concat_ws并将其修改为文本：

query = """select concat_ws(',', date, nvl(min(id), 0), nvl(max(id), 0))
from mytempTable"""

sqlContext.sql(query).write("text").mode("append").save("/tmp/fooo")

或者甚至是更好的选择：

from pyspark.sql import functions as f

(sqlContext
    .table("myTempTable")
    .select(f.concat_ws(",", f.first(f.lit(date)), f.min("id"), f.max("id")))
    .coalesce(1)
    .write.format("text").mode("append").save("/tmp/fooo"))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

HDFS

使用 PySpark 在 HDFS 中保存并附加文件的相关文章

Spark：shuffle操作导致GC长时间暂停

我在跑Spark 2我正在尝试洗牌大约 5 TB 的 json 我在洗牌期间遇到了很长的垃圾收集暂停Dataset val operations spark read json inPath as MyClass operations re
pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
pyspark.pandas 与 pandas 有什么区别？

开始在 Databricks 上使用 PySpark 我发现我可以导入pyspark pandas旁边pandas 有什么不同我认为这不像koalas right PySpark 是 Python 中 Apache Spark 的接口它
错误：从列表创建 Spark 数据帧时 TimestampType 无法接受对象

我正在尝试从以下列表创建一个数据框 data 1 abc 2020 08 20 10 00 00 I 1 abc 2020 08 20 10 01 00 U 1 abc 2020 08 21 10 02 00 U 2 pqr 2020 08
scala.collection.Seq 不适用于 Java

Using 阿帕奇火花2 0 1 Java 7 在 Apache Spark Java API 文档中 DataSet 类出现了一个example http spark apache org docs latest api java org
Twitter API 与 Scala 2.12 一起使用

我正在使用 Scala 2 12 使用 SBT 构建构建 Spark 3 0 0 流应用程序鉴于所有用于执行此操作的库均适用于 Scala EDIT 我尝试使用库构建时得到的示例输出 object twitter is not a me
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
Spark Worker 在 Heartbeater 中与 Spark Driver 通信的超时时间为 3600 秒

我没有配置任何超时值而是使用默认设置在哪里配置3600秒超时怎么解决呢错误信息 18 01 10 13 51 44 WARN Executor Issue communicating with driver in heartbeat
将案例类传递给函数参数

抱歉问了一个简单的问题我想将案例类传递给函数参数并且想在函数内部进一步使用它到目前为止我已经尝试过这个TypeTag and ClassTag但由于某种原因我无法正确使用它或者可能是我没有看到正确的位置用例与此类似 case c
如何在 Spark 中创建空数据帧

我有一组基于 Avro 的配置单元表我需要从中读取数据由于Spark SQL使用hive serdes从HDFS读取数据因此比直接读取HDFS慢很多因此我使用数据块 Spark Avro jar 从底层 HDFS 目录读取 Avr
如何使用 Apache Livy 设置 Spark 配置属性？

我不知道在向 Apache Livy 提交 Spark 作业时如何以编程方式传递 SparkSession 参数这是测试 Spark 作业 class Test extends Job Int override def call jc J
消息：Hive 架构版本 1.2.0 与 Metastore 的架构版本 2.1.0 不匹配 Metastore 未升级或损坏

环境 spark2 11 hive2 2 hadoop2 8 2 hive shell 运行成功并且没有错误或警告但是当运行application sh时启动失败 usr local spark bin spark submit cl
Spark 按列重新分区，每列动态分区数

如何根据列中的项目数对 DataFrame 进行分区假设我们有一个包含 100 人的 DataFrame 列是first name and country 我们希望为一个国家地区的每 10 个人创建一个分区如果我们的数据集包含 80
如何从 PySpark 中某个表中找到的多个表中获取所有数据？

我正在使用 pyspark SQL 我有一个包含三列的表 MAIN TABLE DATABASE NAME TABLE NAME SOURCE TYPE 我想从 DATABASE NAME 和 TABLE NAME 列中的主表下找到的实际数
以有效的方式从 BigQuery 读取到 Spark 中？

使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据我发现它首先将所有数据复制到 G
如何使用 Scala 在 Spark 中漂亮地打印 JSON 数据帧？

我有一个数据帧我想将其作为有效的 json 写入 json 文件我当前的代码如下所示 val df DataFrame myFun df toJSON saveAsTextFile myFile json 输出的格式为如何将文件内容组
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
使用 mlib 执行 Spark-Shell，错误：对象 jblas 不是包 org 的成员

在spark shell中当我执行import org jblas DoubleMatrix 它会在 RHEL 上抛出错误对象 jblas 不是包 org 的成员实际上我用谷歌搜索了 jblas 并安装了 gfortran htt
pyspark：将多个数据帧字段传递给 udf

我是 Spark 和 Python 的新手任何帮助表示赞赏我有一个 UDF 并使用 US zipcd 纬度和经度创建了一个 Spark 数据框 UDF import math def distance origin destinatio

随机推荐

Invalid Uri ： uri 方案无效

我正在尝试通过 WebRequest 登录网站我此时遇到异常 WebRequest req WebRequest Create formUrl Trim string url string username string password
iOS 6 中使用 AudioFileServices 进行粒度合成

我对我正在开发的声音合成应用程序有疑问我正在尝试读取音频文件使用创建随机颗粒颗粒合成技术 http en wikipedia org wiki Granular synthesis 将它们放入输出缓冲区然后能够使用 OpenAL
带有 ASP.NET 的 Google 日历 API

我对使用 Google Calendar API 在 ASP NET Webforms C 中添加修改事件感到困惑我不确定我是否需要 oAuth 或者什么我的应用程序位于我自己的服务器上访问我自己的域和我自己的日历我不需要其他用户
R：将矩阵重新排列为三列

我在 R 中有一个矩阵每个条目i j是分数 rownames 和 colnames 是 id 我只想要一个 3 列矩阵而不是矩阵 i j score 现在我正在使用嵌套 for 循环喜欢 for i in rownames g pri
关于PE的魔数

0x10b PE32 executable 0 107 ROM image 0x20b PE32 64 bit executable 是什么ROM image 有趣的问题我涉足过操作 PE 文件但从未注意到这一点我认为它们的用途如下
修改 tar 存档中嵌套的文件

我正在尝试做一个grep然后一个sed搜索文件内的特定字符串这些文件位于多个 tar 内全部位于一个主 tar 存档内现在我通过以下方式修改文件首先解压主 tar 存档然后将里面的焦油全部提取出来然后进行递归grep进而sed
JavaScript 正则表达式排除某些单词/短语？

如何编写正则表达式模式来测试字符串是否包含多个具有以下结构的子字符串 cake xxx xxx 是哪里任何但不是奶酪或牛奶或黄油例如 I have a cake honey and cake egg 应该返回true but I
防止 WPF 窗口最小化（主要是 Winkey + D）

我有一个应该像 Windows Vista 小工具一样运行的窗口它应该保留在桌面上而不是出现在任务栏和 alt tab 菜单上但最重要的是不要最小化这是它的标题由于其样式设置为 None 因此它没有控制按钮最小化关闭等但仍
Jenkins 向错误的提交 ID 发送通知

我有几个 Jenkins 管道所有管道都从 Bitbucket 导入共享库以实现某些实用方法并且我想将构建状态通知发送到每个项目自己的 Bitbucket 存储库我安装了Bitbucket 构建状态通知器 https plugins
如何在Spring-MVC方法中绑定抽象类的子类？

给定 Spring MVC 控制器中的保存方法 RequestMapping value save public void save ModelAttribute MY KEY final MyModel myModel 拥有位于myM
xdebug、PhpStorm 和 Laravel 3 / mod_rewrite 未命中断点

我非常绝望并且没有想法我已经为 Laravel 3 项目配置了 xdebug 和 PhpStorm 在 Mac OS X Apache 上本地运行该项目因此 PhpStorm 和 Web 应用程序在同一台计算机上运行配置虚拟主机使
从迭代器中删除 N 个值的 Pythonic 解决方案

有没有一个Pythonic解决方案可以删除n来自迭代器的值你可以通过丢弃来做到这一点n值如下 def drop it n for in xrange n it next 但在我看来这并不像 Python 代码应有的那么优雅我在这里缺少
如何使用 cPanel 重新启动 NodeJS

我需要知道从基于 cPanel 的服务器的根端使用什么来重新启动 NodeJS 应用程序例如如果进程由于某种原因现在终止 NodeJS 应用程序将不会启动直到我手动启动它如果服务器重新启动我需要手动重新启动它此外这是服务器上多
Material-UI：更改 TextField 中的自动填充背景颜色

目前我有一个样式化的文本字段当我开始在电子邮件字段中输入时会出现自动填充选项如果我选择自动填充选项之一文本字段的背景将变为白色并带有黑色文本我想改变这些风格我试过这个 import withStyles from materi
IntelliJ 在整个文件中应用检查修复

In IntelliJ I have the inspection that checks for variables that can be made final turned on so that IntelliJ will highl
MiniCssExtractPlugin 公共路径不起作用

我在用MiniCssExtractPlugin在我的 React 应用程序中延迟加载 CSS 文件我给了publicPath选项MiniCssExtractPlugin但它并没有采用这个选项值而是采用output publicPath
在 R 中运行时获取用户的整数输入

我想在运行时获取 R 代码中整数变量的输入我主要用 C 编写代码想知道是否有类似的函数scanf在 R 中可以用来读取用户的输入正如上面的评论所说你可以使用readlines 然后转换为整数as integer 我还提供一个替代方案
Application.GetSaveAsFilename(InitialFileName:=Range("O26") 有时会出现一个空白对话框

我有一个子程序将我的文档保存为二进制工作簿来自堆栈溢出我尝试从单元格中获取值用作文件名通常它工作得很好我不明白为什么有时不能我在单元格 O26 中的数据始终是文本字符串 Dim fname As Variant Dim FileF
如何在 Intellij Idea 上打开 Ant 项目（Nutch Source）？

我想打开 Nutch 2 1 源文件 http www eu apache org dist nutch 2 1 http www eu apache org dist nutch 2 1 在 Intellij IDEA 以下是如何在 Ec
使用 PySpark 在 HDFS 中保存并附加文件

我在 PySpark 中有一个名为df 我已经注册了这个df as a temptable像下面这样 df registerTempTable mytempTable date datetime now strftime Y m d H M

使用 PySpark 在 HDFS 中保存并附加文件

使用 PySpark 在 HDFS 中保存并附加文件 的相关文章

随机推荐

热门标签

使用 PySpark 在 HDFS 中保存并附加文件的相关文章