如何配置粘合书签以与 scala 代码一起使用？

2023-12-27

考虑 Scala 代码：

import com.amazonaws.services.glue.GlueContext
import com.amazonaws.services.glue.util.{GlueArgParser, Job, JsonOptions}
import org.apache.spark.SparkContext

import scala.collection.JavaConverters.mapAsJavaMapConverter

object MyGlueJob {

  def main(sysArgs: Array[String]) {
    val spark: SparkContext = SparkContext.getOrCreate()
    val glueContext: GlueContext = new GlueContext(spark)

    val args = GlueArgParser.getResolvedOptions(sysArgs, Seq("JOB_NAME").toArray)
    Job.init(args("JOB_NAME"), glueContext, args.asJava)

    val input = glueContext
      .getCatalogSource(database = "my_data_base", tableName = "my_json_gz_partition_table")
      .getDynamicFrame()

    val processed = input.applyMapping(
      Seq(
        ("id",                                        "string", "id", "string"),
        ("my_date",                                   "string", "my_date", "string")
      ))
    glueContext.getSinkWithFormat(
      connectionType = "s3",
      options = JsonOptions(Map("path" -> "s3://my_path", "partitionKeys" -> List("my_date"))),
      format = "orc", transformationContext = ""
    ).writeDynamicFrame(processed)
    Job.commit
  }
}

输入是使用 gzip 压缩的分区 json 文件，该文件按日期列分区。一切works- 数据以json格式读取，以orc格式写入。

但是，当尝试使用相同的数据运行作业时，它会再次读取并写入重复的数据。该作业中启用了书签。方法Job.init and Job.commit被调用。怎么了？

UPDATED

我添加了一个transformationContext参数为getCatalogSource and getSinkWithFormat:

        val input = glueContext
      .getCatalogSource(database = "my_data_base", tableName = "my_json_gz_partition_table", transformationContext = "transformationContext1")
      .getDynamicFrame()

and:

    glueContext.getSinkWithFormat(
      connectionType = "s3",
      options = JsonOptions(Map("path" -> "s3://my_path", "partitionKeys" -> List("my_date"))),
      format = "orc", transformationContext = "transformationContext2"
    ).writeDynamicFrame(processed)

现在魔法就这样“起作用”了：

第一次运行 - 好的
第二次运行（使用相同的数据或相同的数据和新的数据） - 它失败并出现错误（稍后）

第二次（及后续）运行后再次发生错误。还有留言Skipping Partition {"my_date": "2017-10-10"}出现在日志中。

ERROR ApplicationMaster: User class threw exception: org.apache.spark.sql.AnalysisException: Partition column my_date not found in schema StructType(); org.apache.spark.sql.AnalysisException: Partition column my_date not found in schema StructType();
at org.apache.spark.sql.execution.datasources.PartitioningUtils$$anonfun$partitionColumnsSchema$1$$anonfun$apply$11.apply(PartitioningUtils.scala:439)
at org.apache.spark.sql.execution.datasources.PartitioningUtils$$anonfun$partitionColumnsSchema$1$$anonfun$apply$11.apply(PartitioningUtils.scala:439)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.sql.execution.datasources.PartitioningUtils$$anonfun$partitionColumnsSchema$1.apply(PartitioningUtils.scala:438)
at org.apache.spark.sql.execution.datasources.PartitioningUtils$$anonfun$partitionColumnsSchema$1.apply(PartitioningUtils.scala:437)
at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
at scala.collection.immutable.List.foreach(List.scala:381)
at scala.collection.TraversableLike$class.map(TraversableLike.scala:234)
at scala.collection.immutable.List.map(List.scala:285)
at org.apache.spark.sql.execution.datasources.PartitioningUtils$.partitionColumnsSchema(PartitioningUtils.scala:437)
at org.apache.spark.sql.execution.datasources.PartitioningUtils$.validatePartitionColumn(PartitioningUtils.scala:420)
at org.apache.spark.sql.execution.datasources.DataSource.write(DataSource.scala:443)
at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:215)
at com.amazonaws.services.glue.SparkSQLDataSink.writeDynamicFrame(DataSink.scala:123)
at MobileArcToRaw$.main(script_2018-01-18-08-14-38.scala:99)

胶水书签究竟是怎么回事？？？哦

您是否尝试过设置transformationContext源和接收器的值是否相同？它们当前在上次更新中设置为不同的值。

transformationContext = "transformationContext1"

and

transformationContext = "transformationContext2"

我在使用胶水和书签时也遇到过这个问题。我正在尝试执行类似的任务，其中读取按年、月和日分区的分区 JSON 文件，每天都会有新文件到达。我的工作运行一个转换来提取数据的子集，然后放入 S3 上的分区 Parquet 文件中。

我使用的是 Python，因此 DynamicFrame 的初始实例化如下所示：

dyf = glue_context.create_dynamic_frame.from_catalog(database="dev-db", table_name="raw", transformation_ctx="raw")

最后像这样接收到 S3：

glue_context.write_dynamic_frame.from_options( frame=select_out, connection_type='s3', connection_options={'path': output_dir, 'partitionKeys': ['year', 'month', 'day']}, format='parquet', transformation_ctx="dev-transactions" )

最初，我运行了该作业，并在启用书签的情况下正确生成了 Parquet。然后我添加了新一天的数据，更新了输入表上的分区并重新运行。第二个作业将失败并出现如下错误：

pyspark.sql.utils.AnalysisException: u"cannot resolve 'year' given input columns: [];;\n'Project ['year, 'month, 'day, 'data']

改变transformation_ctx是相同的（dev-transactions在我的例子中）使该过程能够正常工作，仅处理增量分区并为新分区生成 Parquet。

关于一般书签以及如何使用转换上下文变量的文档非常稀疏。

Python 文档只是说：（https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-pyspark-extensions-glue-context.html https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-pyspark-extensions-glue-context.html):

conversion_ctx – 要使用的转换上下文（可选）。

Scala 文档说（https://docs.aws.amazon.com/glue/latest/dg/glue-etl-scala-apis-glue-gluecontext.html https://docs.aws.amazon.com/glue/latest/dg/glue-etl-scala-apis-glue-gluecontext.html):

conversionContext — 与作业书签使用的接收器关联的转换上下文。默认设置为空。

由于文档解释得不好，我所能观察到的最好情况是，转换上下文用于在已处理的源数据和接收器数据之间形成链接，并且定义不同的上下文会阻止书签按预期工作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何配置粘合书签以与 scala 代码一起使用？的相关文章

私有 EC2 和 HTTP 流量中的 AWS 应用程序

我有一个应用程序在私有子网的 EC2 实例中运行以增加额外的安全性直接从与公共子网关联的面向互联网的 NLB 接收流量我还在公共子网中配置了一个 NAT 网关以便私有 EC2 实例可以从 Internet 下载所需的任何内容我刚刚
为使用 Carrierwave 上传图像文件的用户提供适当的 s3 权限

在 Michael Hartl 撰写的 Rails 教程第 11 章末尾我通过创建存储桶使用 IAM 设置用户并授予用户 AmazonS3FullAccess 策略成功地实现了用户上传到 Amazon S3 服务的功能允许我网站上
错误：使用替代方法写入重载方法值：

我正在尝试读取固定宽度的文件并将其写入文本文件下面是代码输入文件布局字段的长度 4 10 3 5 3 1 1 5 7 094482018 07 10 022 14012 000 0 30000A 002290 059412018 07
如何在 Lift 中反序列化 DateTime

我在将 org joda time DateTime 字段从 JSON 反序列化到案例类时遇到问题 JSON val ajson parse creationDate 2013 01 02T10 48 41 000 05 00 我还设置了这
如何使用 Route53 从一个顶级域重定向到另一个顶级域

如果我的术语在这里不太正确请道歉我的域 albunack net 在 Route53 上运行良好我还在 Route 53 控制下拥有域 albunack com 我希望对 albunack com 的任何请求都重定向到 albunac
从 AWS CLI 工具获取 AWS 帐号的快速方法？

寻找一种快速获取我的帐号的方法我最初想到使用aws iam get account authorization details max items 1但这样做有几个问题有没有办法做到这一点可能不会跨帐户来源您可以从以下位置获取帐号安
zip 样式 @repeat 嵌套形式

repeat非常有用然而我遇到了嵌套表单的障碍我需要制作一个比赛日程表它有 2 个属性日程数据比赛日期时间地点对手和提交球队备注例如由于冬季风暴 1 月 7 日的比赛已移至1 月 9 日在夏威夷表单映射基于 ca
Scala Spark：将数据框中的双列转换为日期时间列

我正在尝试编写代码来将日期时间列 date 和 last updated date 转换为 mm dd yyyy 格式以进行显示它们实际上是 unix 时间转换为双精度数我该怎么做呢 import org joda time impor
在 Scala REPL 中访问包私有方法

假设我有一个private stuff method Stuff something in org my stuff 我可以在 Scala REPL 中做些什么以便我可以调用Stuff something没有得到错误error value
这个错误是什么意思（SimpleHttpConnectionManager 被错误使用）？

我正在尝试从 ElasticSearch 中读取数据到 Spark conf es resource sflow sflow es nodes ES01 es query some query rdd sc newAPIHadoopRDD
mssql 的 UUID 疯狂

我的数据库条目有一个 UUID 及其值使用 Microsoft SQL Server Management Studio 提取 CDF86F27 AFF4 2E47 BABB 2F46B079E98B 将其加载到我的 Scala 应用程序
特征/类类型参数优先于方法类型参数的规则是什么

我已经使用 scala 一段时间了我认为我真的开始理解一切好吧大多数事情但我发现自己对 Map 类中的许多方法定义感到困惑我知道 FoldLeft 等如何工作但我感到困惑的是 Map 函数中使用的类型参数我们以 FoldLef
Vue 和 Axios + AWS API 网关和 Lambda - CORS + POST 不起作用

我正在尝试通过 AWS API Gateway 创建一个 API 测试函数以及一个通过 Axios 的 Vue 应用程序调用的 Lambda 函数它应该从输入元素发送姓名和电子邮件每次我收到此错误时 Access to XMLHttp
JavaFX 控制器如何访问其他服务？

我将 JavaFX 2 与 Scala 一起使用我有class Application extends javafx application Application它执行诸如读取应用程序配置等操作然后它会启动主窗口该主窗口需要连接到一
Spark 写入 S3 V4 SignatureDoesNotMatch 错误

我遇到S3SignatureDoesNotMatch尝试使用 Spark 将 Dataframe 写入 S3 时症状尝试过的事情代码失败有时但有效有时代码可以read从 S3 没有任何问题并且能够不时写入 S3 这排除了错误的配置
授权标头格式错误；区域“us-east-1”是错误的；期待“eu-central-1”

使用 Node JS 和以下配置文件 accessKeyId XXX secretAccessKey XXXX 区域 eu central 1 签名版本 v4 我仍然收到此错误消息就好像 aws sdk 尝试访问 us east 1 Re
AWS Codepipeline 是否会将符号链接传递到工件中的 Codebuild

我的 github 存储库中有一些符号链接当我有一个直接从 github 克隆的 Codebuild 项目时符号链接会被保留我进行了切换以便 Codepipeline 监听我的更改devgithub 中的分支并将工件传递给 cod
使用 ALB 在 AWS 上部署 gRPC 支持应用程序

我有两个使用 gRPC 进行通信的微服务两者都是部署在 ECS 上的 docker 应用程序如何配置它们以使用 AWS ALB 文档中说 ALB 支持 HTTP 2 但我只能看到 HTTP1 设置我的应用程序有 1 个 gRPC 端口
如何列出Resources文件夹中的所有文件（java/scala）

我正在编写一个函数需要访问资源中的文件夹并循环遍历所有文件名如果这些文件符合条件则加载这些文件 new File getClass getResource images sprites getPath listFiles 返回空指针
将数组中的值提取到元组中

有没有一种简单的方法可以将列表的值提取到 Scala 中的元组中基本上是这样的 15 8 split map toInt mkTuple 15 8 或者我可以采取其他方式 val x y 15 8 split map toInt 如果你把

随机推荐

显示：内联表

IE 7 不支持display inline table 其他浏览器支持对于替代解决方案我应该做什么火狐和 IE8 支持display inline table IE6支持display inline table class inlin
从 data.frame 到 ggplot2 图例的表达式

我想向图例条目添加一个表达式而不直接输入图例因为我正在循环变量本质上我想要这样 d lt data frame x 1 10 y 1 10 f rep c 0 74 gt 75 each 5 qplot x y data d colo
LoopBack：如何在代码中动态创建自定义 REST 端点（即时）

我们使用 LoopBack REST 框架来公开我们的数据库和业务逻辑我们需要允许客户在数据库单租户和多租户中创建自定义表这些表可以通过 REST 端点进行访问所有客户都需要使用相同的通用生产 REST 端点这些端点将公开在
Flutter 是否支持 FieldPath？

我找不到FieldPath in the cloud firestore颤振插件 https pub dartlang org packages cloud firestore但是我认为这是一个非常常见的工具将是此类插件的第一个实现之一
NativeScript WebView在默认浏览器中打开url

我正在尝试构建应用程序WebView以及 WebView 内 URL 上的单击点击事件下面的解决方案打开外部浏览器和 URL 但它也在 webview 中加载相同的 url 内容有没有办法阻止在 webview 中加载新的 url 这
运行“npm install”时保留符号链接

如果我们这样做 npm link x 然后我们跑npm install 它将覆盖符号链接包有没有办法跑npm install不覆盖符号链接包就像是 npm install preserve symlinks or npm install
如何防止单击锚元素内的图像时的链接行为？

我有一个与此类似的代码 a href link html goto link page img src images edit gif alt a 现在如果您单击文本我希望 href 链接能够正常工作但是如果您单击图像它应该执行其他
在 Safari 中跳转输入字段

我正在尝试重新创建一个非常酷的占位符用户界面 http dribbble com shots 1254439 GIF Mobile Form Interaction list users只使用 HTML 和 CSS 我就差不多明白了 dem
Vulkan 的 VkMemoryHeapFlagBits 是否缺少值？

在 Vulkan 规范 1 0 9 第 180 页中我们有以下内容 typedef struct VkMemoryHeap VkDeviceSize size VkMemoryHeapFlags flags VkMemoryHeap 和
C# - 值类型的引用包装器

我想用c Pointtype 作为引用类型它是一个结构我想到了上课CPoint 其中将包含一个Point成员有什么办法可以提高会员人数吗 Point担任成员Cpoint 我正在努力避免 cpoint point X cpoint po
SQL Server 从表中读取 csv 二进制文件

我目前将 csv 格式的文件存储在磁盘上然后像这样查询它们 SELECT FROM OPENROWSET BULK C myfile csv FORMATFILE C format fmt FIRSTROW 2 AS rs 其中 form
javascript 中计数器变量的奇怪值[重复]

这个问题在这里已经有答案了可能的重复 Javascript 臭名昭著的循环问题 https stackoverflow com questions 1451009 javascript infamous loop problem 由于某种
Django 1.9：django.core.exceptions.AppRegistryNotReady：应用程序尚未加载

我正在尝试使用这个应用程序https github com benliles django chance https github com benliles django chance在我的应用程序中我的 Django 版本是 1 9 我
底部对齐 R 闪亮按钮

我无法找到底部对齐的方法downloadButton with a selectizeInput i e library shiny runApp list ui shinyUI fluidPage fluidRow align botto
如何在Android上像instagram一样实现视频过滤器[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我需要在我的 Android 应用程序中添加视频过滤器例如Instagram 我搜索了很多但没有找
打印 HasMorePages 不起作用 c#

好吧所以我一直在四处寻找在 SO 和 Google 上看看一个问题是否可以解决我的错误但显然不能所以这里是我正在尝试打印有时会超过一页的内容并且我正在检查要打印的页数检查完所有这些逻辑后我使用HasMorePages属性来
使用 JSlider 实时更新 jFreeChart 的透明度

我想问这个问答问题的后续问题 JFreeChart 可见后如何更新其外观 https stackoverflow com questions 5522575 how can i update a jfreecharts appearance
为什么并行 for_each 需要前向迭代器？

我正在设计一个遍历多个容器的迭代器因此有一个代理对象作为返回类型因此它最多只能成为一个输入迭代器这是因为前向迭代器需要reference是一个实际的引用类型但据我所知这对于输入迭代器来说并非如此让我说简单for each与我
点符号解除分配？

property copy NSString name property copy NSString orbit property copy NSNumber mass property float surfaceTemp property
如何配置粘合书签以与 scala 代码一起使用？

考虑 Scala 代码 import com amazonaws services glue GlueContext import com amazonaws services glue util GlueArgParser Job Jso

如何配置粘合书签以与 scala 代码一起使用？

如何配置粘合书签以与 scala 代码一起使用？ 的相关文章

随机推荐

热门标签

如何配置粘合书签以与 scala 代码一起使用？的相关文章