在 Apache Beam 中如何处理 Pipeline-IO 级别的异常/错误

2023-12-12

我正在使用 Spark runner 作为 Apache Beam 中的管道运行程序，并发现错误。通过得到错误，我的问题提出了。我知道错误是由于 sql 查询中的 Column_name 不正确造成的，但我的问题是如何在 IO 级别处理错误/异常

org.apache.beam.sdk.util.UserCodeException: java.sql.SQLSyntaxErrorException: Unknown column 'FIRST_NAME' in 'field list'
at org.apache.beam.sdk.util.UserCodeException.wrap(UserCodeException.java:36)
at org.apache.beam.sdk.io.jdbc.JdbcIO$ReadFn$DoFnInvoker.invokeProcessElement(Unknown Source)
at org.apache.beam.runners.core.SimpleDoFnRunner.invokeProcessElement(SimpleDoFnRunner.java:185)
at org.apache.beam.runners.core.SimpleDoFnRunner.processElement(SimpleDoFnRunner.java:149)
at org.apache.beam.runners.spark.translation.DoFnRunnerWithMetrics.processElement(DoFnRunnerWithMetrics.java:70)
at org.apache.beam.runners.spark.translation.SparkProcessContext$ProcCtxtIterator.computeNext(SparkProcessContext.java:145)
at org.apache.beam.repackaged.beam_runners_spark.com.google.common.collect.AbstractIterator.tryToComputeNext(AbstractIterator.java:145)
at org.apache.beam.repackaged.beam_runners_spark.com.google.common.collect.AbstractIterator.hasNext(AbstractIterator.java:140)
at scala.collection.convert.Wrappers$JIteratorWrapper.hasNext(Wrappers.scala:42)
at scala.collection.Iterator$$anon$13.hasNext(Iterator.scala:461)
at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
at org.apache.spark.storage.memory.MemoryStore.putIteratorAsValues(MemoryStore.scala:216)
at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:1092)
at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:1083)
at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:1018)
18/11/01 13:13:16 WARN org.apache.spark.scheduler.TaskSetManager: Lost task 3.0 in stage 0.0 (TID 3, localhost, executor driver): org.apache.beam.sdk.util.UserCodeException: java.sql.SQLSyntaxErrorException: Unknown column 'FIRST_NAME' in 'field list'
    at org.apache.beam.sdk.util.UserCodeException.wrap(UserCodeException.java:36)
    at org.apache.beam.sdk.io.jdbc.JdbcIO$ReadFn$DoFnInvoker.invokeProcessElement(Unknown Source)
    at org.apache.beam.runners.core.SimpleDoFnRunner.invokeProcessElement(SimpleDoFnRunner.java:185)
    at org.apache.beam.runners.core.SimpleDoFnRunner.processElement(SimpleDoFnRunner.java:149)
    at org.apache.beam.runners.spark.translation.DoFnRunnerWithMetrics.processElement(DoFnRunnerWithMetrics.java:70)
    at org.apache.beam.runners.spark.translation.SparkProcessContext$ProcCtxtIterator.computeNext(SparkProcessContext.java:145)
    at org.apache.beam.repackaged.beam_runners_spark.com.google.common.collect.AbstractIterator.tryToComputeNext(AbstractIterator.java:145)
    at org.apache.beam.repackaged.beam_runners_spark.com.google.common.collect.AbstractIterator.hasNext(AbstractIterator.java:140)
    at scala.collection.convert.Wrappers$JIteratorWrapper.hasNext(Wrappers.scala:42)
    at scala.collection.Iterator$$anon$13.hasNext(Iterator.scala:461)
    at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
    ..............
    at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:335)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:286)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:324)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:288)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
    at org.apache.spark.scheduler.Task.run(Task.scala:109)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:345)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)
Caused by: java.sql.SQLSyntaxErrorException: Unknown column 'FIRST_NAME' in 'field list'
    at com.mysql.cj.jdbc.exceptions.SQLError.createSQLException(SQLError.java:536)
    at com.mysql.cj.jdbc.exceptions.SQLError.createSQLException(SQLError.java:513)
    at com.mysql.cj.jdbc.exceptions.SQLExceptionsMapping.translateException(SQLExceptionsMapping.java:115)
    at com.mysql.cj.jdbc.ConnectionImpl.execSQL(ConnectionImpl.java:1983)
    at com.mysql.cj.jdbc.PreparedStatement.executeInternal(PreparedStatement.java:1826)
    at com.mysql.cj.jdbc.PreparedStatement.executeQuery(PreparedStatement.java:1923)
    at org.apache.commons.dbcp2.DelegatingPreparedStatement.executeQuery(DelegatingPreparedStatement.java:83)
    at org.apache.commons.dbcp2.DelegatingPreparedStatement.executeQuery(DelegatingPreparedStatement.java:83)
    at org.apache.commons.dbcp2.DelegatingPreparedStatement.executeQuery(DelegatingPreparedStatement.java:83)
    at org.apache.commons.dbcp2.DelegatingPreparedStatement.executeQuery(DelegatingPreparedStatement.java:83)
    at org.apache.beam.sdk.io.jdbc.JdbcIO$ReadFn.processElement(JdbcIO.java:601)

你必须创建一个自定义异常处理程序类来捕获该异常，例如；

需要实现这样的自定义方法

public Mycust_Exception(String string) {
    super("Error Obtained by "+string);
}

这里我刚刚返回了字符串，但也可以使用抛出super()现在你需要在你期望出现异常的地方声明 try-catch 块并遵循PTransformation_level_exceptionHandler_implementation

并在 catch 块中像这样调用 throw 语句

throw new Ezflow_Exception("Invalid statement");

这个实现肯定可以满足您的大部分查询。对于Java编程来说，它是最常见的实现方式之一

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

JDBC

ApacheBeam

apachebeamio

在 Apache Beam 中如何处理 Pipeline-IO 级别的异常/错误的相关文章

使用空/空字段值创建新的数据框

我正在从现有数据帧创建一个新数据帧但需要在这个新 DF 中添加新列下面代码中的 field1 我该怎么做工作示例代码示例将不胜感激 val edwDf omniDataFrame withColumn field1 callUDF v
尝试使用 OSX 使用 schemacrawler 连接到 sqlite db - 为什么它要求用户？

结论见底部我正在尝试使用 schemacrawler 来绘制 sqlite 数据库的图表我的设置 OSX 10 8 SchemaCrawler 10 5 下载自Here http sourceforge net projects sch
Scala：如何获取数据框中的行范围

我有一个DataFrame通过运行创建sqlContext readParquet 文件的一个 The DataFrame由 300 M 行组成我需要使用这些行作为另一个函数的输入但我想以较小的批次进行操作以防止 OOM 错误目前
准备好的声明未转义撇号

我正在使用从 hibernate 获取的 JDBC 连接对象来执行 Bath 更新我这样做是因为我需要使用 MySql ON DUPLICATE 功能但是当尝试插入时我无法插入说字符串有特殊字符 Session session se
如何找到特定 Spark 配置属性的值？

如何在我的 Spark 代码中找到 Spark 配置的值例如我想找到spark sql shuffle partitions的值并在我的代码中引用它以下代码将返回所有值 spark sparkContext getConf getAl
关闭连接时 JDBC 事务回滚失败

如果在提交期间与数据库资源的连接丢失这可能会导致提交失败然后回滚失败是否有可能事务已部分提交这似乎发生在我的案例中但希望社区能更清楚地说明这一点 HibernateTransactionManager 和 Oracle 与 JDB
与 aws-java-sdk 链接时读取 json 文件时 Spark 崩溃

Let config json是一个小的 json 文件 toto 1 我编写了一个简单的代码来读取 json 文件sc textFile 因为文件可以在S3 本地或HDFS上所以textFile很方便 import org apache
基础知识 - Hibernate / JDBC 连接池问题故障排除

Hibernate 对于从底层连接池获取的数据库连接的责任是什么它是否在使用连接之前测试连接是否已关闭如果是的话从池中获取另一个连接我在下面包含了错误和确认信息任何关于我可以从哪里开始解决这个问题的想法都会非常有帮助以及有关我们
我是否可以以编程方式要求 eclipselink 删除并创建所有表？

这有助于单元测试以下内容应该适合您 ServerSession session entityManager unwrap ServerSession class SchemaManager schemaManager new Schema
从 Java 中的另一个应用程序部署 Apache Spark 应用程序，最佳实践

我是 Spark 的新用户我有一个 Web 服务允许用户请求服务器通过读取数据库并将结果推送回数据库来执行复杂的数据分析我已将这些分析转移到各种 Spark 应用程序中目前我使用spark submit来部署这些应用程序但是我很
在 PySpark 中将结构数组扩展为列

我有一个来自 Google Analytics 的 Spark 数据框如下所示 id customDimensions Array
从 aws Glue 脚本调用存储过程

ETL 作业完成后在 AWS Glue 脚本中调用存储过程的最佳方式是什么我正在使用 PySpark 从 S3 获取数据并将其存储在临时表中在这个过程之后需要调用一个存储过程该存储过程将数据从临时表加载到相应的 MDS 表中如果
通过Listener获取Spark thrift服务器查询中读取的行数

我正在尝试为我们的 ST 服务器构建一个监控系统到目前为止诸如记录查询检索的行红色和花费的时间之类的事情都很好我已经实现了一个自定义侦听器我能够毫无问题地检索查询和时间侦听SparkListenerSQLExecutionSt
在使用 Phoenix 4.5 的 CDH 5.4 上运行 Spark 作业时未找到 PhoenixOutputFormat

我通过重新编译源代码设法在 Cloudera CDH 5 4 上配置 Phoenix 4 5 sqlline py效果很好但火花有问题 spark submit class my JobRunner master yarn deploy
如何区分spark中的操作是转换还是动作？

最近在学习spark 对transformation和action操作很困惑我阅读了spark文档和一些关于spark的书籍我知道action会导致spark作业在集群中执行而transformation则不会但是spark的api
在eclipse java项目中加载dll文件

我正在尝试添加文件sqljdbc auth dll到项目库我将包含 dll 的文件夹添加为外部类文件夹在这里我基本上尝试使用 Microsoft 提供的 SQL 驱动程序连接到我的 SQL SERVER 2008 数据库我的代码是
我需要比较两个数据帧以进行类型验证并发送非零值作为输出

我正在比较两个数据帧基本上这些是两个不同数据源的模式一个来自 hive 另一个来自 SAS9 2 我需要验证两个数据源的结构因此我将模式转换为两个数据帧它们是 SAS 架构将采用以下格式 scala gt metadata sho
在方法之间重用PreparedStatement？

We all know https stackoverflow com questions 2467125 reusing a preparedstatement multiple times that https stackoverflo
Spark错误：无效的日志目录/app/spark/spark-1.6.1-bin-hadoop2.6/work/app-20161018015113-0000/3/

我的 Spark 应用程序因上述错误而失败实际上我的 Spark 程序正在将日志写入该目录 stderr 和 stdout 都被写入所有工作人员我的程序以前运行良好但昨天我将 fodler 更改为指向 SPARK WORKER DIR
如何使用 Play Framework 2.4 的 H2 数据库文件配置相对于项目根目录的路径？

我们正在开发 Play 2 4 应用程序 Java API 出于开发目的我们希望使用持久性 H2 数据库其数据库文件路径相对于项目根目录 In 如何在 Play 框架中使用持久 H2 数据库而不是内存中的数据库 https stacko

随机推荐

什么是 JAXB？为什么要使用它？ [关闭]

Closed 这个问题是基于意见的目前不接受答案这里有人发誓 JAXB 是自切片面包以来最伟大的东西我很好奇 Stack Overflow 用户认为 JAXB 的用例是什么以及是什么使它成为该用例的好或坏解决方案我是用于操作 XM
JavaFX 和 Spring Boot - NPE

我仍在与我的问题作斗争我想使用 Spring Framework 来注入依赖项并且必须使用 Spring boot 来集成两者不幸的是在第一个视图中自动装配运行正确但如果我进入下一个阶段我仍然只能Null Pointer Ex
是否可以检查对象是否已附加到实体框架中的数据上下文？

当尝试附加已附加到给定上下文的对象时我收到以下错误context AttachTo ObjectStateManager 中已存在具有相同键的对象 ObjectStateManager 无法跟踪具有相同键的多个对象有没有一种方法可以实现
Xcode 4.4.1：git 不再显示修改

不幸的是突然间我无法确定 Xcode 停止显示 git 信息的发生时刻也无法从 Xcode 内部通过 git 提交恢复等如果我检查组织者的存储库我的项目仍会列出其上次提交使用命令行 git status 我可以看到所有未暂存
PHP 中的 Session 和 Cookie 有什么区别？

两者有什么区别Sessions and Cookies in PHP Cookie 是浏览器存储的一点数据并随每个请求发送到服务器会话是存储在服务器上并与给定用户关联的数据集合通常通过包含 ID 代码的 cookie
谷歌+登录，安卓登录时反复出现唱机提示

我是安卓开发新手我正在将 google plus 登录集成到我的应用程序中我有点困惑谷歌的歌唱提示重复出现我不明白为什么我有什么问题吗我正在关注谷歌开发者网站做这个东西我使用多个谷歌帐户测试了该应用程序但其中 2 个工作正常
如何从 Scrapy 获取 UTF-8 编码的 unicode 输出？

耐心听我说我之所以写下每一个细节是因为工具链的很多部分都不能很好地处理 Unicode 并且不清楚是什么原因导致的 PRELUDE 我们首先设置并使用最近的 Scrapy source scrapy 1 1 2 bin activate
如何使用 iPhone sdk 将 XML 字符串转换为 JSON

我正在实现一个基于客户端的应用程序我有一个 xml 字符串我需要将其转换为 JSON 格式并发送到服务器我不知道如何转换这个你们能给我建议任何文档或想法吗步骤 1 将 XML 读入 NSDictionary http troybr
在 Eclipse 中使用 -parameters 选项进行反射

要使用 java 反射获取方法参数名称我们必须使用 parameters 选项编译 Java 类但是当我使用 VM Arguments 从 eclipse 中执行此操作时我在控制台中收到以下错误 Unrecognized option
OpenCSVSerde escapeChar 覆盖 quoteChar

我有许多 csv 文件正在导入到 Hive 中并且我发现新行的 escapeChar 会被触发即使它位于引用字段即我的 quoteChar 内有什么简单的方法可以解决这个困境吗 Line1field1 text Line1field
是否可以在 div 区域中包含 box-shadow 来响应单击事件？

我有一个div充当圆形按钮它的设计使其整体外观的很大一部分来自于box shadow div style width 50px height 50px background yellow border none div 我有一个附加到按钮
Common Lisp：使用与 Lisp 进程不同的工作目录启动子进程

假设我有一个目录 A 和子目录 B 我 cd 进入 A 并启动 lisp 在该 lisp 进程中我想启动一个 Python 子进程其中 Python 将 B 视为其当前工作目录 lisp 进程需要在 A 中拥有 cwd 而 python
Youtube Data API v3：喜欢另一个用户的评论

我想使用 Youtube Data API 来点赞评论当我尝试喜欢自己的评论时它可以正常工作没有任何问题但是当我尝试喜欢其他人的评论时我会收到错误 reason invalidCommentMetadata message The
mysql_fetch_assoc()：提供的参数不是有效的 MySQL 结果资源[重复]

这个问题在这里已经有答案了可能的重复警告 mysql fetch array 提供的参数不是有效的 MySQL 结果我真的坚持这一点我收到了这个错误 mysql fetch assoc 提供的参数不是文件名中有效的 MySQL
LINQ 中的动态 where 子句？

我正在尝试根据动态条件加载数据 string tempQry string Empty if string IsNullOrEmpty cusid string IsNullOrEmpty mktid tempQry x gt x Mark
Scrapy安装（需要Microsoft Visual C++ 14.0）

我已经尝试通过命令安装 scrapy 好几天了 pip install scrapy 下载要求后我收到此错误代码 error Microsoft Visual C 14 0 is required Get it with Microsof
Tridion：替换 Query.QueryOperator 方法？

Query QueryOperator AND Field我们在 Tridion R5 3 VBscript 模板中使用了这种方法效果很好最近在迁移到Tridion 2011 SP1时我们尝试使用此方法但它不起作用我们了解到该方
通过 pandas 坐标数据框查找单元格中的点

我必须通过两个 pandas 数据框找到哪些点位于方形单元格网格内给定点坐标和单元格边界坐标我正在打电话dfc包含代码和单元格边界坐标的数据框我简化了问题在实际分析中我有一个大网格其中包含地理点和大量要检查的点 Code minx
Openshift 缺少创建文件的权限

spring boot应用程序部署在openshift 4上该应用程序需要在nfs share上创建一个文件 openshift 容器已在 NFS 类型上配置卷挂载 openshift 上的容器创建一个具有随机用户 ID 的 pod 如下
在 Apache Beam 中如何处理 Pipeline-IO 级别的异常/错误

我正在使用 Spark runner 作为 Apache Beam 中的管道运行程序并发现错误通过得到错误我的问题提出了我知道错误是由于 sql 查询中的 Column name 不正确造成的但我的问题是如何在 IO 级别处理错误

在 Apache Beam 中如何处理 Pipeline-IO 级别的异常/错误

在 Apache Beam 中如何处理 Pipeline-IO 级别的异常/错误 的相关文章

随机推荐

热门标签

在 Apache Beam 中如何处理 Pipeline-IO 级别的异常/错误的相关文章