Spark Dataframe执行UPDATE语句

2024-01-03

Hy guys,

我需要使用 Apache Spark DataFrame 执行 jdbc 操作。基本上我有一个名为 Measures 的历史 jdbc 表，我必须在其中执行两项操作：

1、设置旧measure记录的endTime有效性属性为当前时间

2.插入一条新的测量记录，设置endTime为9999-12-31

有人可以告诉我如何为第一个操作执行（如果可以的话）更新语句并为第二个操作执行插入吗？

我尝试在第一次操作中使用此语句：

val dfWriter = df.write.mode(SaveMode.Overwrite)
dfWriter.jdbc("jdbc:postgresql:postgres", tableName, prop)

但它不起作用，因为存在重复密钥违规。如果我们可以做更新，我们如何做删除语句？

提前致谢。

我认为 Spark 还没有开箱即用地支持它。您可以使用 foreachRDD() 循环迭代数据帧/RDD，并使用 JDBC api 手动更新/删除表。

这是类似问题的链接：Spark Dataframes UPSERT 到 Postgres 表 https://stackoverflow.com/questions/34643200/spark-dataframes-upsert-to-postgres-table

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

sqlupdate

sqlinsert

apachesparksql

Spark Dataframe执行UPDATE语句的相关文章

如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
更新\插入数据从grafana到mysql

可以从grafana更新数据或插入数据到mysql 我需要使用 UI 在 mysql 中插入更新信息现在我已经在使用grafana 所以想知道是否有任何方法可以使用grafana来更新或插入信息没有用于获取用户输入并将该数据插入 My
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
如何从 SQL Server 中的 SELECT 进行更新？

In SQL服务器可以将行插入到带有INSERT SELECT陈述 INSERT INTO Table col1 col2 col3 SELECT col1 col2 col3 FROM other table WHERE sql coo
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa

随机推荐

使用 EL 变量动态地将 ID 分配给标签

我想循环一些客人并动态插入一个id
自引用实体循环依赖仅发生在 EF Core 6.0 上

描述我认为这是一个 EF Core 6 0 错误但我想在向 EF Core GitHub 存储库提交错误之前检查此处我完全不确定这是否是一个错误至少我认为这是一种意想不到的行为在迁移到 NET 6 后此行为首次出现我已成功在由
使用 element-ui 和 vue-test-utils 模拟 select

我正在 Vue 中使用 Jest 和 Element ui 在一个包含带有 2 个选项的选择的组件上进行单元测试我从下拉列表中选择一个选项然后检查是否已调用某个操作 1 与正常select and optionHTML 标签效果很好水
sql中多个商店的价格比较

create table Products id int ProductName varchar 200 ProductCategory varchar 200 ProductImage varchar 200 ProductUri var
将 std::integer_sequence 作为模板参数传递给元函数

我怎样才能通过std integer sequence作为元函数的模板参数即不是函数模板给定例如以下用例但不限于此我想使用整数序列来删除最后一个N来自参数包的类型我以为我可以用selector from 这个问题 https st
如何更改 PropertyGrid 控件的边框颜色（或删除边框）？

拥有标准的 WinForms 2 0PropertyGrid control http msdn microsoft com en us library system windows forms propertygrid aspx我正在寻找
如何在mongodb中按多列和多个值进行分组

Mongodb 集合 name name 1 call Success Call name name 1 call Repeat Call name name 3 call Repeat Call name name 3 call Unsu
在java8中，如何在lambdas foreach块中设置全局值？

public void test String x List
如何更改nginx proxy_pass中的request_uri？

我正在通过unix套接字通过gunicorn运行django应用程序我的nginx配置如下所示当前 NGINX 配置文件 upstream django app server server unix django run gunicor
使用 IE9 beta 调试 Silverlight 应用程序

今天我花了一些时间在 IE9 beta 中使用 VS 2010 调试 SL3 应用程序并注意到一些怪癖有时在 VS 中启动 Silverlight 应用程序时它无法在浏览器中加载但使用 F5 刷新往往可以解决问题此外还有一些零
在 VS 2013 中从 C# Outlook 插件创建 MSI 文件

我在 Visual Studio 2013 中创建了 C Outlook 插件它也有窗口形式我对生成 msi 文件感到很生气请问有更简单的解决方案步骤吗主要告诉我完成该过程后我在哪里可以找到最终的MSI文件例如bin rel
jquery getScript 函数永远不会失败？

jQuery getScript 失败函数永远不会被调用看看这个小提琴 http jsfiddle net getsetbro 8xNMs http jsfiddle net getsetbro 8xNMs getScript http
多线程C程序；如何杀死线程产生的进程？

情况我正在用 C 语言编写一个程序该程序维护多个线程一旦线程结束就会创建一个新线程每个线程都分叉子线程通过 exec 运行一个进程父线程等待它完成此外还有一个等待信号的信号处理线程如果检测到 SIGINT 那么它会告诉主
RuntimeWarning：在最大值中遇到无效值

numpy 中的奇怪行为 bug 与文档相反以下代码给出了 RuntimeWarning fmax 中遇到无效值 a np random uniform 0 1 0 4 5 5 b np random uniform 0 3 5 5 5
Delphi中的快速Swap64函数

我使用以下函数来交换无符号 64 位整数值 function Swap64 I Int64 Int64 begin Int64Rec Result Bytes 0 Int64Rec I Bytes 7 Int64Rec Result B
我们如何使用其他用户凭据执行 Jenkins 作业

我需要使用登录的用户凭据通过 Jenkins UI 执行一些 Jenkins 作业例如发布到生产原因是我们有单独的支持团队成员他们可以访问生产框而不是开发团队成员因此为了将任何代码库部署到生产环境所有 Windows 部署
在文本正文中定位 ASCII 艺术图像，并具有一定的错误容忍度

是否有任何算法可以找到以下 ASCII 艺术图像在以下正文中此处完成文件 https dl dropbox com u 28167627 TestData txt
如何在 Scala 3 中进行类型级添加？

如何在 Scala 3 中实现类型级操作在本例中为加法这是我想做的这不能编译 case class foo S lt Int Singleton value Double def bar T lt Int Singleton that
显示所有文本区域行而不滚动[重复]

这个问题在这里已经有答案了如何显示所有文本区域行而不是垂直滚动我尝试使用 css 使用 min height 和 max height 和 height auto 但不起作用 form control width 400px min h
Spark Dataframe执行UPDATE语句

Hy guys 我需要使用 Apache Spark DataFrame 执行 jdbc 操作基本上我有一个名为 Measures 的历史 jdbc 表我必须在其中执行两项操作 1 设置旧measure记录的endTime有效性属性为当

Spark Dataframe执行UPDATE语句

Spark Dataframe执行UPDATE语句 的相关文章

随机推荐

热门标签

Spark Dataframe执行UPDATE语句的相关文章