如何在 Scala/Spark 中从多个 DataFrame 创建包含多个工作表的 Excel 文件？

2024-01-09

In Scala/Spark应用程序我创建了两个不同的DataFrame。我的任务是为每个 DataFrame 创建一个包含两个工作表的 Excel 文件。

我决定使用火花Excel https://github.com/crealytics/spark-excel图书馆，但我有点困惑。据我了解，未来的excel文件保存在hdfs文件系统中，对吗？我需要设置未来excel文件的路径.save()方法对吧？我也不明白应该采用什么格式dataAddress option?

import org.apache.spark.sql.Dataset
import spark.implicits._

val df1 = Seq(
    ("2019-01-01 00:00:00", "7056589658"),
    ("2019-02-02 00:00:00", "7778965896")
).toDF("DATE_TIME", "PHONE_NUMBER")

df1.show()

val df2 = Seq(
    ("2019-01-01 01:00:00", "194.67.45.126"),
    ("2019-02-02 00:00:00", "102.85.62.100"),
    ("2019-03-03 03:00:00", "102.85.62.100")
).toDF("DATE_TIME", "IP")

df2.show()

df1.write
    .format("com.crealytics.spark.excel")
    .option("dataAddress", "'First'!A1:B1000")
    .option("useHeader", "true")
    .mode("append")
    .save("/hdd/home/NNogerbek/data.xlsx")

df2.write
    .format("com.crealytics.spark.excel")
    .option("dataAddress", "'Second'!A1:B1000")
    .option("useHeader", "true")
    .mode("append")
    .save("/hdd/home/NNogerbek/data.xlsx")

首先，这是Maven依赖 https://mvnrepository.com/artifact/com.crealytics/spark-excel_2.11/0.12.0 I used

<!-- https://mvnrepository.com/artifact/com.crealytics/spark-excel -->
<dependency>
    <groupId>com.crealytics</groupId>
    <artifactId>spark-excel_2.11</artifactId>
    <version>0.12.0</version>
</dependency>

问题：据我了解，未来的excel文件保存在hdfs文件系统中，对吧？我需要设定未来的道路 .save() 方法中的 excel 文件，对吧？我也不懂什么格式应该在 dataAddress 选项中吗？

什么是数据地址？来自文档

数据地址： https://github.com/crealytics/spark-excel#data-addresses的位置可以使用 dataAddress 选项指定要读取或写入的数据。目前支持以下地址样式：

B3：数据的起始单元格。读取将返回下面的所有行以及所有右侧的列。写作将从这里开始并使用尽可能多的栏目和所需的行。 B3:F35：数据单元格范围。读书会回来仅指定范围内的行和列。写作将开始于第一个单元格（本例中为 B3）并仅使用指定的列和行。如果 DataFrame 中有更多行或列要写入，它们将被截断。确保这是您想要的。 '我的 Sheet'!B3:F35：与上面相同，但使用特定的工作表。 MyTable[#All]：数据表。读取将返回所有行和列在此表中。写入时只会在当前范围内写入桌子。不会执行表的增长

所以 "My Sheet1'!B3:C35" 意味着您正在告诉 api...我的 Sheet1 和 B3:C35

excel工作表中的列位置..

下面是我实现期望的完整列表。


package com.examples

import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.SparkSession

object ExcelTest {
  def main(args: Array[String]) {
    import org.apache.spark.sql.functions._
    Logger.getLogger("org").setLevel(Level.OFF)

    val spark = SparkSession.builder.
      master("local")
      .appName(this.getClass.getName)
      .getOrCreate()
    import spark.implicits._
    val df1 = Seq(
      ("2019-01-01 00:00:00", "7056589658"),
      ("2019-02-02 00:00:00", "7778965896")
    ).toDF("DATE_TIME", "PHONE_NUMBER")

    df1.show()

    val df2 = Seq(
      ("2019-01-01 01:00:00", "194.67.45.126"),
      ("2019-02-02 00:00:00", "102.85.62.100"),
      ("2019-03-03 03:00:00", "102.85.62.100")
    ).toDF("DATE_TIME", "IP")

    df2.show()

    df1.coalesce(1).write
      .format("com.crealytics.spark.excel")
      .option("dataAddress", "'My Sheet1'!B3:C35")
      .option("useHeader", "true")
      .option("dateFormat", "yy-mmm-d")
      .option("timestampFormat", "mm-dd-yyyy hh:mm:ss")
      .mode("append")
      .save(".\\src\\main\\resources\\testexcel.xlsx")

    df2.coalesce(1).write
      .format("com.crealytics.spark.excel")
      .option("dataAddress", "'My Sheet2'!B3:C35")
      .option("useHeader", "true")
      .option("dateFormat", "yy-mmm-d")
      .option("timestampFormat", "mm-dd-yyyy hh:mm:ss")
      .mode("append")
      .save(".\\src\\main\\resources\\testexcel.xlsx")
  }
}

注意：.coalesce(1) 将创建单个文件而不是多个部分文件...

结果：由于我使用本地结果，如果它的纱线将保存在 hdfs 中，结果将保存在本地。如果你想使用像s3这样的云存储，也可以使用yarn作为master。基本上这是根据你的要求...

表 1：

表2：

还， 1）看我的文章如何使用 Apache Spark Scala 使用 Excel 工作表进行简单报告？ https://www.linkedin.com/pulse/how-do-simple-reporting-excel-sheets-using-apache-spark-ghadiyaram/
2）看我的回答here. https://stackoverflow.com/a/47827565/647053
希望有帮助！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Scala/Spark 中从多个 DataFrame 创建包含多个工作表的 Excel 文件？的相关文章

使用 Python Pandas 获取多个值来制作表格

使用我的代码我可以将两个 Excel 数据库连接到 1 中问题是它只显示收入列而不显示列展示次数为了更清楚我留下了代码和示例我尝试过 df1 df1 pivot index Cliente columns Fecha value
如何使用 C# 了解 Excel 中的分页符 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在使用 C 创建并格式化 Excel 电子表格因此我需要格式化合并单元格更改字体等直到第一页的最后如何知道 Excel 电子
如何从 data.frame 中删除列？

不是你怎么但更多的是你怎么如果有人给你一个包含 200 列的文件并且你想将其减少到分析所需的少数列你会如何做呢一种解决方案是否比另一种解决方案更有优势假设我们有一个包含列 col1 col2 到 col200 的数据框如果
如何将Excel中的每个条目转换为一行“矩阵”表

我有类似的东西 1 2 3 a x o x b x x o c o o o 并想将其转换成像这样的线 1 a x 1 b x 1 c x 2 a o 2 b x 2 c o 3 a x 3 b o 3 c o 通过使用Excel文档中的公式
Scala [2.11.6] 编译 Stackoverflow 错误（似乎对迄今为止发现的建议有抵抗力）

scala版本 2 11 6 我当然尝试过clean很多次以及update 不确定是否有clean deeper刷新 jar 库真正奇怪的是这种情况同时发生在两台机器上其中一台在没有执行任何特殊操作的情况下恢复了而另一台仍然没有恢复
如何在基于其他数据帧的数据帧中创建联接？

我有 2 个数据框一份包含学生批次详细信息另一份包含分数我想加入 2 个数据框数据框1包含 s1 s2 s3 Stud1 Stud2 Stud3 Stud2 Stud4 Stud1 Stud1 Stud3 Stud4 数据框2包含
将 Excel 数字日期重新格式化为 R 日期

希望将从 Excel 中提取的列重新格式化为包含数字 Excel 格式例如 40182 的数据框 as date 40182 origin 1899 12 30 format b Y Returns 1 2070 年 1 月 5 日我正
解释一下 Scala 中 Y 组合器的实现？

这是 Y 组合器在 Scala 中的实现 scala gt def Y T func T gt T gt T gt T T gt T func Y func T Y T func T gt T gt T gt T T gt T scala
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
在单元格中查找以逗号分隔的多个值并返回以逗号分隔的多个值

如果有人可以帮忙的话我们将此表称为 1 我想在此处执行查找可以将工作表 2 中 B 列的值引入工作表 1 中的 B 列返回的多个值也应该用逗号分隔我在这里尝试使用 textjoin 公式但它搞砸的地方是例如它将 A12 计为 A
无法证明与路径相关类型的等价性

为什么最后一个summon编译失败我该怎么做才能让它编译 import java time LocalDateTime LocalTime trait Circular T type Parent given localTimeCircu
打开特定工作表上的 Excel 文件

我有一个包含 5 个工作表的 Excel 文件我想用 C 代码打开它当它打开时我希望激活第 3 页我怎样才能做到这一点像这样 using Excel Excel Application excelApp new Excel App
Scala 如何使用我的所有核心？

object PrefixScan sealed abstract class Tree A case class Leaf A a A extends Tree A case class Node A l Tree A r Tree A
为什么 sbt 在 build.sbt 工作时使用 Build.scala 报告“未找到：值 PlayScala”？

我正在创建一个多模块 sbt 项目其结构如下
VBA复制单元格值和格式

我如何修改以下代码以便不仅复制值而且复制字体样式例如大胆或不大胆谢谢 Private Sub CommandButton1 Click Dim i As Integer Dim a As Integer a 15 For i 11 To
将整个工作表复制到 Excel 2010 中的新工作表

我发现了类似的问题涉及复制一个工作簿中的整个工作表并将其粘贴到另一个工作簿但我感兴趣的是简单地复制整个工作表并将其粘贴到同一工作簿中的新工作表我正在将 2003 xls 文件转换为 2010 xlsm 用于在工作表之间复制和粘贴的旧方
VBA Excel如何在文本框中写入Excel公式

如何将Excel公式放入文本框中我尝试过这样的事情 Sub CivBox With ActiveSheet Shapes Civils 3 Copy C26 Activate Paste Shapes Shapes Count Name
将不连续范围从一张纸复制到另一张纸

VBA 新手也是第一次发帖可能会问一个非常基本的问题然而我在互联网上或在我拥有的参考书中没有找到答案所以我很困惑如何将一张纸中的一堆间隔开的列放入另一张纸中但没有间隙例如我想从这样的工作表中复制标记为 x 的单元格 x
如何从namedtuple实例列表创建pandas DataFrame（带有索引或多索引）？

简单的例子 from collections import namedtuple import pandas Price namedtuple Price ticker date price a Price GE 2010 01 01 30
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的

随机推荐

转换播放！从 MySQL 到 PostgreSQL 的框架演变

我正在使用 plaframework 2 2 1 我做了一个项目 MySQL 但现在我想将我的项目转移到 PostgreSQL 但在重新创建数据库演变时遇到了一些错误我的 mysql 的旧演变 1 sql 运行良好是 Created by
如何设置绑定到Textbox的Label的可见性？

我有三个绑定到标签的文本框当我在文本框中键入内容时文本框文本值将设置为标签问题是我想在文本框为空白时将标签的可见性设置为折叠反之亦然如何在 WPF 中使用 Visibility Convert 来做到这一点在 XAML 文件中
Angular2 使用 @Inputs 和 s

我的页面中有一个子导航它在公共主视图下方显示一些子视图我想通过将一个对象传递给子视图
查找两个列表中都不存在的对象的最佳方法

我正在开发一个模块该模块依赖于检查两个列表中是否存在不存在的任何对象该实现应该是用Python 实现的考虑简化的对象 def class Foo object def init self attr one None attr two
使用带有 Font Awesome 的数字

我想使用数字列出流程中的步骤我很好奇如何使用 Font Awesome 来做到这一点我想使用带有 1 2 3 的圆圈这可能吗 Font Awesome 会在图标列表中添加数字吗 Thanks 字体真棒实际上有内置支持 https fo
Android 工作室：NoClassDefFoundError 与 java.util.Base64

抱歉我扫描了许多听起来相似的问题但没有一个对我有帮助我正在运行 Android Studio 3 0 1 我是新手我正在遵循在线教程 HelloWorld 程序但随后添加了对 java util Base64 getDecoder
运算符 new 将内存初始化为零

有这样的代码 include
如何在 Android 中将 ImageButton 与背景图像正确对齐？

在使用 XML 的 Android UI 设计中如何将 ImageButton 与 Activity xml 文件的背景完全对齐假设我有两张图像一张用作活动的背景图像第二张用作图像按钮源这是背景图像 https i stack i
如何在 Python 中获得人类可读的时区名称？

在我正在从事的一个Python项目中我希望能够获得以下形式的人类可读时区名称美洲纽约对应系统本地时区显示给用户我见过的每一段访问时区信息的代码都只返回数字偏移量 0400 或字母代码 EDT 有时两者都返回是否有一些 Pyt
NEAT 错误 - AttributeError：“tuple”对象没有属性“connections”

我目前正在尝试创建一个 NEAT 算法来解决 FlappyBird 但在运行我的代码时遇到错误参见标题目前我已经设置了我的run功能和我的eval genomes功能我已经简化了它们以删除pygame并试图将其保留在neat pyth
如何使用vba禁用单元格中的更改？

我正在使用以下代码此代码的示例如下如果我在单元格 A1 中输入任何值单元格 B1 将显示时间戳 Private Sub Worksheet Change ByVal Target As Excel Range With Target
“单例”工厂，好还是坏？

我有很多抽象工厂它们通常作为单例实现通常是为了方便不必将它们传递给实际上与使用或了解这些工厂无关的层大多数时候我只需要在启动时决定哪个工厂实现其余的代码程序也许通过一些配置它看起来例如喜欢 abstract class Co
使用 Mips Assembly 读取和打印 txt 文件中的内容

我正在尝试读取并打印 txt 文件中的内容稍后我还想从 mips 读取转储的文件我看到代码看起来没问题但没有输出任何内容 data myFile asciiz teste txt filename for input buffer
从 RecyclerView 中删除行

我在这篇文章的帮助下以某种方式实现了 recyclerview 现在我的要求是在运行时从此回收视图中删除一行 link http treyrobinson net blog android l tutorials part 3 recycl
首先使用 Entity Framework 6.0 代码创建与 LINQPad 的 DbContext 连接时出现问题

我正在使用 LINQPad v4 51 03 并尝试从 Entity Framework 6 0 6 1 1 中的代码优先实现创建 DbContext 连接 public partial class MyEntities DbContext
Google Apps 脚本 - 单元格中的 .setValue 基于 for 循环匹配

我试图从数据范围中获取值循环数据匹配该数据中的值然后根据匹配值更新位于几列上方的单元格我能够找到要匹配的值但我很难理解如何更新几列的单元格下面是我到目前为止得到的代码减去 setValue 部分 var trackingSS
数据表中的条件差异计算

我有一百万行长data table大约有20个柜台式的柱子这些列显示各种存储系统操作的计数器随时间的增加然而有时受监控系统上的计数器会重置并且单个观测值低于前一个观测值我需要计算一个opsdiff列其中包含基于列的相同类型的后
iOS MKMapView 缩放以显示所有标记

我正在与MKMapView并在地图上标出了几个点我已经用过MKCoordinateRegion and MKCoordinateSpan围绕其中一个点启用缩放等但这不是我想要的我正在尝试使用类似于 Javascript 缩放到边界功能
如何在 Go 中编写多行字符串？

Go 是否有类似于 Python 的多行字符串的东西 line 1 line 2 line 3 如果不是那么编写跨多行字符串的首选方式是什么根据语言规范 http golang org doc go spec html String l
如何在 Scala/Spark 中从多个 DataFrame 创建包含多个工作表的 Excel 文件？

In Scala Spark应用程序我创建了两个不同的DataFrame 我的任务是为每个 DataFrame 创建一个包含两个工作表的 Excel 文件我决定使用火花Excel https github com crealytics s

如何在 Scala/Spark 中从多个 DataFrame 创建包含多个工作表的 Excel 文件？

excel工作表中的列位置..

如何在 Scala/Spark 中从多个 DataFrame 创建包含多个工作表的 Excel 文件？ 的相关文章

随机推荐

热门标签

如何在 Scala/Spark 中从多个 DataFrame 创建包含多个工作表的 Excel 文件？的相关文章