无法在 Spark SQL 中生成 UUID

2023-11-30

下面是代码块和收到的错误

> creating a temporary views 
sqlcontext.sql("""CREATE TEMPORARY VIEW temp_pay_txn_stage
     USING org.apache.spark.sql.cassandra
     OPTIONS (
       table "t_pay_txn_stage",
       keyspace "ks_pay",
       cluster "Test Cluster",
       pushdown "true"
     )""".stripMargin)

sqlcontext.sql("""CREATE TEMPORARY VIEW temp_pay_txn_source
     USING org.apache.spark.sql.cassandra
     OPTIONS (
       table "t_pay_txn_source",
       keyspace "ks_pay",
       cluster "Test Cluster",
       pushdown "true"
     )""".stripMargin)

查询如下视图以便能够从阶段获取源中不存在的新记录。

Scala> val df_newrecords = sqlcontext.sql("""Select UUID(),
 | |stage.order_id,
 | |stage.order_description,
 | |stage.transaction_id,
 | |stage.pre_transaction_freeze_balance,
 | |stage.post_transaction_freeze_balance,
 | |toTimestamp(now()),
 | |NULL,
 | |1 from temp_pay_txn_stage  stage left join temp_pay_txn_source source on stage.order_id=source.order_id and stage.transaction_id=source.transaction_id where
 | |source.order_id is null and source.transaction_id is null""")`



org.apache.spark.sql.AnalysisException: Undefined function: 'uuid()'. This function is neither a registered temporary function nor a permanent function registered in the database 'default'.; line 1 pos 7

我正在尝试生成 UUID，但出现此错误。

这是一个如何生成 timeuuid 的简单示例：

import org.apache.spark.sql.SQLContext    
val sqlcontext = new SQLContext(sc)

import sqlcontext.implicits._

//Import UUIDs that contains the method timeBased()
import com.datastax.driver.core.utils.UUIDs

//user define function timeUUID  which will retrun time based uuid      
val timeUUID = udf(() => UUIDs.timeBased().toString)

//sample query to test, you can change it to yours
val df_newrecords = sqlcontext.sql("SELECT 1 as data UNION SELECT 2 as data").withColumn("time_uuid", timeUUID())

//print all the rows
df_newrecords.collect().foreach(println)

输出：

[1,9a81b3c0-170b-11e7-98bf-9bb55f3128dd]
[2,9a831350-170b-11e7-98bf-9bb55f3128dd]

来源：https://stackoverflow.com/a/37232099/2320144 https://docs.datastax.com/en/drivers/java/2.0/com/datastax/driver/core/utils/UUIDs.html#timeBased--

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

cassandra

apachesparksql

sparkcassandraconnector

无法在 Spark SQL 中生成 UUID 的相关文章

Kubernetes WatchConnectionManager：执行失败：HTTP 403

我遇到错误Expected HTTP 101 response but was 403 Forbidden 在我使用以下命令设置新的 Kubernetes 集群之后Kubeadm当我提交下面遇到的 pyspark 示例应用程序时只有一个主
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
使用 Cassandra 进行单元版本控制

我的应用程序使用 AbstractFactory 作为 DAO 层因此一旦实现了 HBase DAO 系列创建 Cassandra DAO 系列并从多个角度查看差异对我来说将是非常好的不管怎样试图做到这一点我看到 Cassandr
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
Cassandra CQL v3.0 和复合类型

我正在浏览以下文档CQLv3 0 http www datastax com docs 1 1 references cql index 我们是否应该在更新中指定复合键并选择 a b 1 以防万一comparator or key vali
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1

随机推荐

scikit-learn 是否在我的 GPU 上运行？

这个问题与scikit learn 会使用 GPU 吗但我认为没有提供相同的答案我正在针对 Nvidia GPU 执行 scikit learn 算法没有错误因此假设 scikit 正在底层硬件上运行由于 scikit learn
嵌套li - 单击子级时，触发父级单击事件[重复]

这个问题在这里已经有答案了我有一个嵌套的李 li class innerMenuLi a href span MainLi span a ul class mainMenu li a href class active span main
使用 WCF 生成 JSON 数组

我正在开发一个 WCF Web 服务它返回以下内容 allFormsResult FormId 1 FormName Formulario 1 FormId 2 FormName Formulario 2 FormId 3 FormNam
检查 wifi 连接的质量？

我遇到这样的情况当我关闭 4G 并连接到某些 WiFi 接入点但无法发送或接收数据时用于检查网络连接的标志被设置为 true 如下所示 NetworkInfo ni context getActiveNetworkInfo boolea
如何在 SQL Server 2014 中启用/安装全文搜索

这个问题可能有一个非常简单的答案但我不知道如何在 SQL Server 2014 中启用全文搜索过去几个小时我一直在网上搜索一些关于 SQL Server 2012 的帖子说它在安装过程中的功能中但我去了那里但没有启用它的选项自
从文本区域读取时不保留换行符

我的 java web 应用程序从文本区域获取内容并通过电子邮件发送相同的内容我面临的问题是使用以下命令读取相同内容时文本区域消息中的换行符不会保留 request getParameter message 有什么线索可以解决吗 T
如何以非交互式方式为 gcloud CLI 传递数据库密码？

我正在尝试以非交互式方式将密码传递给 gcloud sql connect 命令我想要实现的不是要求输入密码而是以某种方式将其传递到命令中不确定是否可能基于文档但另一方面它对于自动化任务非常有用我坚信有一种方法可以做到这一点
无法创建 externalDataReference 临时文件

我在我的 iOS 项目中使用 Core Data 我通过以下方式使用多个上下文我有一个persisent store context它在私有队列上运行并将更改存储到持久存储中我有一个main queue context那是的孩子pers
Android：Eclipse MAT 似乎没有显示我的应用程序的所有对象

我通过插入语句创建了一个 hprof 文件Debug dumpHprofData sdcard myapp hprof 在我的应用程序的代码中然后我通过 hprof conv 运行 hprof 文件并在 Eclipse 中打开转换后的
子类中的狭义属性类型

今天我遇到了一个奇怪的行为我没想到 Objective C 编译器会允许在 UITableViewCell 中有一个名为 imageView 的 UIImageView 类型的属性我对 UITableViewCell 进行了子类化
iDangero.us Swiper 多个实例

我正在尝试添加多个刷卡器 http www idangero us swiper 在我的网站上我想添加滑动器动态因此我为每个滑动器使用相同的类每个滑动器看起来像这样 div class swiper container div cla
JavaFX 任务一旦取消或完成一次就不会重新运行

我正在做一个基本的 Java FX 任务练习线程上的计数范围为 1 到 150 当前值显示在标签上并更新进度条有一个按钮可以启动任务取消任务以及查看任务的取消状态让我困惑的是为什么我在取消线程一次后无法重新运行任务如果我让任务完成
对调用另一个方法的方法进行单元测试

对调用多个方法的方法进行单元测试的最佳方法是什么例如 modify string value if value Length gt 5 replaceit value else changeit value 该伪代码有一个修改方法当前
Solr 4 中可以更新 uniqueKey 吗？

我的 uniqueKey 定义为
使用 Gradle - 在 META-INF/spring.factories 中找不到自动配置类

尝试在 Spring Boot 上使用 IntelliJ 中的 gradle 中的 jar 函数部署我构建的 jar 它使用 bootrun 从我的 IDE 本地运行良好但没有将 jar 放在 Linux 服务器上服务器上的完整错误是
Sklearn Pipeline：自动错过一项功能

我创建了一个自定义分类器虚拟分类器下面是定义我还添加了一些打印语句和全局变量来捕获值 class FeaturePassThroughClassifier ClassifierMixin def init self pass def
以编程方式触发来自 Google Play 的应用更新

在 Google Play 开发者控制台中提交应用程序更新并且所有用户都可以看到该应用程序后任何设备需要多长时间才能选择更新假设全天都有有效的互联网 WiFi 连接并且此应用程序已开启自动更新我能否以编程方式向 Google Pla
React 正在将旧状态发送给其父级

当我将子组件的状态发送到其父组件时 React 会将旧状态发送到父组件我想在每次单击正常工作并调用函数handleClick 的列表项时发送更新的状态但当我打电话时sendStateToParent 它正在过去旧的状态假设我点击了IT
ASP.NET MVC 中的 AutoMapper 更新操作

对于某些人来说这可能非常简单但是我有点困惑找不到合适的例子假设我正在使用视图模型并且我的 POST 操作在该视图模型中进行通常我会按照以下方式做一些事情 HttpPost public ActionResult Update U
无法在 Spark SQL 中生成 UUID

下面是代码块和收到的错误 gt creating a temporary views sqlcontext sql CREATE TEMPORARY VIEW temp pay txn stage USING org apache spar

无法在 Spark SQL 中生成 UUID

无法在 Spark SQL 中生成 UUID 的相关文章

随机推荐

热门标签