从 Scala/Spark 写入 SQL Server 日期时间数据类型

2024-04-27

我正在尝试使用类似的方法从 databricks 笔记本批量插入 SQL Server 表：

批量复制到 Azure SQL 数据库或 SQL Server https://docs.databricks.com/spark/latest/data-sources/sql-databases-azure.html#id7

这工作正常，直到我尝试写入数据类型日期时间列。我尝试写入的表具有以下架构：

create table raw.HubDrg_TEST
(
  DrgKey varchar(64) not null,
  LoadDate datetime,
  LoadProcess varchar(255),
  RecordSource varchar(255),
  DrgCode varchar(255)
 )

我的Scala代码如下：

//Get dataset for data in staging table
var stagedData: DataFrame = spark.read
  .format("com.databricks.spark.sqldw")
  .option("url", sqlDwUrlSmall)
  .option("tempDir", tempDir)
  .option("forwardSparkAzureStorageCredentials", "true")
  .option("query", "select distinct CodeID as DrgCode, getdate() as LoadDate from StageMeditech.livendb_dbo_DAbsDrgs").load() 

//Get dataset for data in existing Hub
val existingHub: DataFrame = spark.read
  .format("com.databricks.spark.sqldw")
  .option("url", sqlDwUrlSmall)
  .option("tempDir", tempDir)
  .option("forwardSparkAzureStorageCredentials", "true")
  .option("query", "Select DrgKey as ExistingDrgKey from raw.HubDrg_TEST")
  .load()

val sha_256 = udf((s: String) => { String.format("%032x", new BigInteger(1, MessageDigest.getInstance("SHA-256").digest(s.getBytes("UTF-8")))) })

//Add additional columns
stagedData = stagedData.withColumn("DrgKey",sha_256(col("DrgCode"))).withColumn("LoadProcess",lit("TestLoadProcess"))
                                   .withColumn("RecordSource",lit("TestRecordSource"))
//Join and filter out existing hub records
val dff = stagedData.join(existingHub, col("DrgKey")===col("ExistingDrgKey"), "left_outer").filter(existingHub.col("ExistingDrgKey").isNull).drop("ExistingDrgKey") 

//Bulk insert
val bulkCopyConfig = Config(Map( 
"url" -> dwServer, 
"databaseName" -> dwDatabase, 
"user" -> dwUser, 
"password" -> dwPass, 
"dbTable" -> "raw.HubDrg_TEST", 
"bulkCopyBatchSize" -> "2000", 
"bulkCopyTableLock" -> "false", 
"bulkCopyTimeout" -> "0" 
)) 

dff.bulkCopyToSqlDB(bulkCopyConfig)

我看到的问题是我选择的日期时间值getdate() as LoadDate尝试插入上述表时出现此错误：SqlNativeBufferBufferBulkCopy.WriteTdsDataToServer, error in OdbcDone: SqlState: 42000, NativeError: 4816, 'Error calling: bcp_done(this->GetHdbc()) | SQL Error Info: SrvrMsgState: 1, SrvrSeverity: 16, Error <1>: ErrorMsg: [Microsoft][ODBC Driver 17 for SQL Server][SQL Server]Invalid column type from bcp client for colid 2. | Error calling: pConn->Done() | state: FFFF, number: 58673, active connections: 9', Connection String: Driver={pdwodbc17e};app=TypeC01-DmsNativeWriter:DB66\mpdwsvc (13056)-ODBC;trusted_connection=yes;autotranslate=no;server=\\.\pipe\DB.66-a313018f1e5b\sql\query;database=Distribution_15

即使尝试不使用 SQL Server 查询中的日期时间值并将 LoadDate 值更改为：withColumn("LoadDate",current_timestamp())，尝试使用当前时间戳 https://spark.apache.org/docs/2.3.1/api/sql/index.html#current_timestampSpark的内置函数，还是不行。

I saw this https://stackoverflow.com/questions/56798914/scala-sql-server-how-to-insert-the-current-timestamp-as-datetime-in-sql-servestackoverflow文章，这是一个类似的问题，但仍然没有回答这个问题。有没有人有一个关于如何插入到 SQL Server 表的好例子datetime https://learn.microsoft.com/en-us/sql/t-sql/data-types/datetime-transact-sql?view=sql-server-2017数据类型使用com.microsoft.azure.sqldb.spark.bulkcopy._图书馆？

这是执行以下操作时的数据示例dff.show()

    +-------+--------------------+--------------------+---------------+----------------+
    |DrgCode|            LoadDate|              DrgKey|    LoadProcess|    RecordSource|
    +-------+--------------------+--------------------+---------------+----------------+
    |    390|2019-07-02 09:05:...|48a1a756f2d83f1dc...|TestLoadProcess|TestRecordSource|
    |     18|2019-07-02 09:05:...|4ec9599fc203d176a...|TestLoadProcess|TestRecordSource|
    |    481|2019-07-02 09:05:...|51d089cdaf0c968c9...|TestLoadProcess|TestRecordSource|
    |    460|2019-07-02 09:05:...|841a05fd378a2c067...|TestLoadProcess|TestRecordSource|
    |    838|2019-07-02 09:05:...|cef5838d118dccd9d...|TestLoadProcess|TestRecordSource|
    |     61|2019-07-02 09:05:...|d029fa3a95e174a19...|TestLoadProcess|TestRecordSource|
    |    807|2019-07-02 09:05:...|fce86e339dc3131c4...|TestLoadProcess|TestRecordSource|
    |     44|2019-07-02 09:05:...|71ee45a3c0db9a986...|TestLoadProcess|TestRecordSource|
    |    267|2019-07-02 09:05:...|8acc23987b8960d83...|TestLoadProcess|TestRecordSource|
    |    222|2019-07-02 09:05:...|9b871512327c09ce9...|TestLoadProcess|TestRecordSource|
    |    934|2019-07-02 09:05:...|a8443b1426652157e...|TestLoadProcess|TestRecordSource|
    |    677|2019-07-02 09:05:...|2782526eaa0c5c254...|TestLoadProcess|TestRecordSource|
    |    701|2019-07-02 09:05:...|290a0b92873bdf4e4...|TestLoadProcess|TestRecordSource|
    |    441|2019-07-02 09:05:...|2dfe70c43208f52b9...|TestLoadProcess|TestRecordSource|
    |    439|2019-07-02 09:05:...|50a010ce24d089605...|TestLoadProcess|TestRecordSource|
    |    883|2019-07-02 09:05:...|3055e0d8130c7a197...|TestLoadProcess|TestRecordSource|
    |    947|2019-07-02 09:05:...|4d0198f4905a08812...|TestLoadProcess|TestRecordSource|
    |    369|2019-07-02 09:05:...|5f193b350c8aba488...|TestLoadProcess|TestRecordSource|
    |     21|2019-07-02 09:05:...|6f4b6612125fb3a0d...|TestLoadProcess|TestRecordSource|
    |    503|2019-07-02 09:05:...|7182dd431b5c8833e...|TestLoadProcess|TestRecordSource|
    +-------+--------------------+--------------------+---------------+----------------+
    only showing top 20 rows

dff:org.apache.spark.sql.DataFrame
DrgCode:string
LoadDate:timestamp
DrgKey:string
LoadProcess:string
RecordSource:string

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从 Scala/Spark 写入 SQL Server 日期时间数据类型的相关文章

将 Matplotlib 输出保存到 Databricks 上的 Blob 存储

我正在尝试使用此处提供的方法将 matplotlib 图形写入 Azure blob 存储将 Matplotlib 输出保存到 Databricks 上的 DBFS https stackoverflow com questions 57
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
我如何以编程方式从数据库表生成“插入”数据脚本文件？

有没有一个优雅的基于面向对象的框架这是我编写的一些代码用于为数据库中的每个表生成插入存储过程它还处理返回那些具有标识列的表的新 ID 它使用 SQL SMO 其中一些内容与我的项目有些特定因此如果您有任何疑问请告诉我 void
PlayFramework：如何转换 JSON 数组的每个元素

鉴于以下 JSON values one two three 我如何在 Scala Play 中像这样转换它 values elem one elem two elem three 这很容易Play 的 JSON 转换器 https www
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
Scala 如何将 Map 转换为元组的可变参数？

在 Scala Play 2 2 x 测试的背景下我有一个Map String String 我需要将其传递给接受的函数 String String 即一个可变参数 String String tuple e g val data Map
如何查找 SQL Server 数据库中所有空间的使用情况

我们有一个 SQL Server 数据库根据 Microsoft SQL Server Management Studio 的数据该数据库只有 6436Mb 中的 119Mb 可用然而命令 EXEC sp msforeachtable
如何从命令行运行scala文件？

scala是否支持scala run xxx scala go语言支持这样运行 go my go 并且Python支持 python my py 但看来 scala xxx scala 仅进行语法检查未观察到任何输出或运行行为那么有没有
如何从 SQL Server 的表中获取列名？

我想查询一个表的所有列的名称我发现如何做到这一点 Oracle https stackoverflow com q 452464 419956 MySQL https stackoverflow com q 193780 419956 P
Scala SBT 和 JNI 库

我正在编写一个简单的应用程序Scala通过以下方式使用 leveldb 数据库leveldbjni图书馆我的build sbt文件看起来像这样 name Whatever version 1 0 scalaVersion 2 10 2 l
如何从 SQL Server 2005 备份中恢复单个表？

我已经使用常规 SQL Server 2005 备份命令进行了备份有没有办法只恢复单个表而不是整个数据库将整个数据库恢复到另一台机器或临时数据库然后复制表对我来说似乎是最简单的
将插入与 select 语句合并

这对我有用 MERGE Table1 AS tgt USING SELECT TOP 1 FROM Table2 SELECT itmid FROM Table3 WHERE id id as a WHERE id id AS src ON
触发器以捕获服务器中的架构更改

是否可以实现类似以下触发器的东西 CREATE TRIGGER tr AU ddl All Server ON DATABASE WITH EXECUTE AS self FOR DDL DATABASE LEVEL EVENTS AS D
如何在Scala中实现尾递归快速排序

我写了一个递归版本 def quickSort T xs List T p T T gt Boolean List T xs match case Nil gt Nil case gt val x xs head val left righ
加特林负载测试期间编译错误

我正在尝试编写一个模拟并且希望能够运行该模拟我在尝试 mvn gatling execute 时遇到错误我的 pom 有以下依赖项
为什么 Excel 有时会在工作表名称中添加 $？

我有时但并非总是发现 Excel 会放置一个位于工作表名称末尾但在 Excel 中看不到只有在尝试使用 C 将其导入 SQL Server 时才可见我遇到过很多不同的情况它保留了原始工作表但也创建了第二个空的隐藏工作表其中
如何询问 Scala 类型参数的所有实例化是否存在证据？

给定皮亚诺数的以下类型级加法函数 sealed trait Nat class O extends Nat class S N lt Nat extends Nat type plus a lt Nat b lt Nat a match c
Scala 2.10，它对 JSON 库和案例类验证/创建的影响

显然在 Scala 2 10 中我们得到了改进的反射这将如何影响 lift json jerkson sjson 和朋友此外我们能否期望在不久的将来 Scala 中会出现内置的 JSON 语言功能如 Groovy 的出色 GSON
SQL Server - 在设置 COLLATE Latin1_General_CS_AS 的情况下搜索不区分大小写

家长提问 https stackoverflow com questions 50974562 sql server update to match and replace only exact words感谢 Iamdave 部分问题得到
FindAsync 很慢，但是延迟加载很快

在我的代码中我曾经使用加载相关实体await FindAsync 希望我能更好地遵守 C 异步指南 var activeTemplate await exec DbContext FormTemplates FindAsync exec

随机推荐

通过使用特征在模板类的编译时抛出错误来禁用函数

我有一堂课我们就叫它吧Foo有几种方法 template
在 DirectX9 中使用 ASSIMP 加载 .obj 模型

这是我第一次发帖我对这个名为 ASSIMP 的 3d 模型加载库有这个问题我正在尝试将其集成到示例 Direct3d9 应用程序中但进展并不顺利我是一名经验丰富的 C 程序员因此帮助我不会太麻烦所以我过去制作了几个 d3d9 应
在 RStudio 中加载 tidyverse 时出错

当尝试在 RStudio 中加载 tidyverse 包时我收到以下错误消息图书馆 tidyverse 错误 tidyverse 的包或命名空间加载失败 onAttach 在 tidyverse 的 AttachNamespace 中失
注意：android.support.v4.text.ICUCompatIcs：找不到动态引用的类 libcore.icu.ICU

我今天开始收到最新 Android Build Tools ABT v19 0 3 的消息乍一看我认为这可能是 ABT 的问题然而仔细调查后发现这条消息 android support v4 text ICUCompatIcs c
在 Windows 中设置 PHP SOAP 扩展

我对如何根据网上的内容在 Windows 中设置 PHP SOAP 扩展有很多困惑您能帮帮我吗我该怎么做呢有什么建议参考吗参考PHP docs http php net manual en install windows exten
从 powershell 执行时，WSL 中无法识别“uname -s”等命令

我需要在 WSL 中执行以下命令 sudo curl L https github com docker compose releases download 1 23 2 docker compose uname s uname m o u
AppRegistryNotReady：翻译基础设施无法初始化

当我尝试访问我的应用程序时出现以下错误 AppRegistryNotReady 翻译基础设施无法在应用程序注册表准备好之前初始化检查你是否没有在导入时进行非惰性 gettext 调用这是我的 wsgi py 文件 WSGI con
如何在没有 --prefer-source 的情况下使用 Composer 克隆存储库？（使用 Symfony 2）

场景我正在使用 Symfony 2 2 在我的所需包列表中也是我的 github 存储库之一我们将其称为 TestLib 我知道我可以将 github url 定义为 Symfony 的composer json 中的附加存储库以通过
Html 表格右对齐

item a item b item c item d item e item a item b item c item d item e 我的表中有两行我希望它们每行都有一个左对齐的项目和一些右对齐的项目如上面的第一个示例所示然而
获取 SPAN 标签的 ID，并根据单击的标签向文本框字段添加一些值

当用户单击 SPAN 标签时我试图获取它的 ID 由于每个标签的ID包含两位数字因此它们将用于引用为其对应的隐藏文本框字段的值但我对这个问题很困惑这是我编写的部分代码我需要你的帮助来完成它因为我不知道如何继续
将 Keras (Tensorflow) 卷积神经网络转换为 PyTorch 卷积网络？

Keras 和 PyTorch 使用不同的参数进行填充 Keras 需要输入字符串而 PyTorch 使用数字有什么区别如何将一个转换为另一个哪些代码在任一框架中获得相同的结果 PyTorch 还采用参数 in channels o
Flex 构建的 SWF 不再工作，错误 2048、2046、2032

我对这个问题真的很困惑而且我对 Flex 还很陌生基本上我尝试使用 mxmlc 构建的任何内容现在都无法运行根据我的操作给出上述三个错误 30 分钟前它还在工作我一直在花时间试图找出发生了什么变化我重新下载了 Flex SDK
如何在批处理文件的“If”中使用多个条件？

我可以在批处理文件中使用或和指定多个条件吗if block 如果不是那么复杂我至少可以使用类似的东西 if value1 lt value lt value2 基本上我的目的是检查当前系统时间是否落在某个时间间隔内准确地说是上午
尽管缓冲区分配给 compressBound 结果（文件太大？），zlib compress() 返回 Z_BUF_ERROR

使用 zlib 时我调用compress 给出一个Z BUF ERROR当我尝试压缩一个 13G 的文件时尽管我认为缓冲区分配是正确的此代码适用于较小的文件 struct stat infile stat FILE fp NULL i
xib 文件中的自定义类和文件所有者设置有什么区别？

In a custom xib file what s the difference between the two following setting methods shown in the images below 请检查此链接文件
触发变量中 python 字符串的 f 字符串解析

这个问题来自于处理jupyter magics 但可以用更简单的方式表达给定一个字符串s the key is d key 和一本字典d key val 我们要解析该字符串旧的方法是 format 这会引发错误它不处理字典键 the
如何使用RedirectToAction重定向到页面中的某个位置？

我在一个项目中使用 MVC4 C 和 Visual Studio Ultimate 2013 我在提交表单后将用户重定向到索引页面但是该网页有 2 个选项卡我想将用户重定向到第二个选项卡而不是第一个选项卡我有一个名为Materia
Angular2：如何获取自定义响应标头（CORS问题）

为什么我无法从响应中访问 Angular2 中的所有标头我有一个无法修改的旧版 Web 服务它将一些重要信息发送回客户端响应标头别问我为什么这是废话我的代码是这样的 subscribe r Response gt var cust
类型双关：省略放置 new 和析构函数

已经有很多关于严格别名规则和类型双关的帖子但我找不到我可以理解的关于对象数组的解释我的目标是拥有一个内存池非模板类用于存储对象数组基本上我只需要在访问时知道实际类型它可以被视为一个非模板向量其迭代器将是模板我想到的设计提出了几
从 Scala/Spark 写入 SQL Server 日期时间数据类型

我正在尝试使用类似的方法从 databricks 笔记本批量插入 SQL Server 表批量复制到 Azure SQL 数据库或 SQL Server https docs databricks com spark latest dat

从 Scala/Spark 写入 SQL Server 日期时间数据类型

从 Scala/Spark 写入 SQL Server 日期时间数据类型 的相关文章

随机推荐

热门标签

从 Scala/Spark 写入 SQL Server 日期时间数据类型的相关文章