Spark 查找 Dataframe 提高性能的最佳方法

2023-12-04

数据框A（数百万条记录）其中一列是create_date，modified_date

数据框 B 500 条记录具有 start_date 和 end_date

目前的方法：

Select a.*,b.* from a join b on a.create_date between start_date and end_date

上述作业需要半小时或更长时间才能运行。

我怎样才能提高性能

DataFrames 目前没有这样的直接连接方法。在执行连接之前它将完全读取两个表。

https://issues.apache.org/jira/browse/SPARK-16614

您可以使用 RDD API 来利用joinWithCassandraTable功能

https://github.com/datastax/spark-cassandra-connector/blob/master/doc/2_loading.md#using-joinwithcassandratable

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

cassandra

datastaxenterprise

Spark 查找 Dataframe 提高性能的最佳方法的相关文章

从 Java 中的另一个应用程序部署 Apache Spark 应用程序，最佳实践

我是 Spark 的新用户我有一个 Web 服务允许用户请求服务器通过读取数据库并将结果推送回数据库来执行复杂的数据分析我已将这些分析转移到各种 Spark 应用程序中目前我使用spark submit来部署这些应用程序但是我很
测试期权价值的更好方法？

我经常发现自己Option T 对于某些类型T并希望根据某个值来测试期权的价值例如 val opt Some oxbow if opt isDefined opt get lakes do something 以下代码是等效的并且不需要
从 Monoids 的 HList 类型派生 0 的 HList

我正在学习 Shapeless 目前我正在尝试创建一个执行以下操作的函数给定一个类型HList它返回HList of Nones 与Option对应于给定的类型HList type 例如 create String Int HNil re
如何将Spark DataFrame插入Hive内表？

以追加模式将 DF 插入 Hive 内部表的正确方法是什么看来我们可以使用 saveAsTable 方法直接将 DF 写入 Hive 或将 DF 存储到临时表然后使用查询 df write mode append saveAsTable
在 PySpark 中将结构数组扩展为列

我有一个来自 Google Analytics 的 Spark 数据框如下所示 id customDimensions Array
scala 元组拆包

我知道这个问题已经以不同的方式出现过很多次但我仍然不清楚有没有办法达到以下目的 def foo a Int b Int foo a b right way to invoke foo foo getParams is there a w
在sbt的build.sbt文件中添加模块依赖信息

我在 IntelliJ 中有一个多模块项目如该屏幕截图所示 contexProcessor 模块依赖于 contextSummary 模块一旦我在项目结构中设置了依赖项 IntelliJ 就会处理所有事情然而当我跑步时sbt tes
在 Scala 中定义具有多个隐式参数的函数

如何定义具有多个隐式参数的函数 def myfun arg String implicit p1 String implicit p2 Int doesn t work 它们必须全部放入一个参数列表中并且该列表必须是最后一个 def my
登录模块控制标志在 JAAS 配置中不可用 - Scala Kafka

尝试使用 kerberos 身份验证连接到 Kafka 时遇到问题使用 scala 和我的jaas config看起来像这样 KafkaClient com sun security auth module Krb5LoginModule
Scala 中的 Case 对象与枚举

是否有关于何时使用的最佳实践指南案例类 http en wikipedia org wiki Scala 28programming language 29 Case classes and pattern matching 或 case
Scala Spark：将数据框中的双列转换为日期时间列

我正在尝试编写代码来将日期时间列 date 和 last updated date 转换为 mm dd yyyy 格式以进行显示它们实际上是 unix 时间转换为双精度数我该怎么做呢 import org joda time impor
在 Scala REPL 中访问包私有方法

假设我有一个private stuff method Stuff something in org my stuff 我可以在 Scala REPL 中做些什么以便我可以调用Stuff something没有得到错误error value
Spark UDF 错误 - 不支持 Any 类型的架构

我正在尝试创建一个 udf 它将列中的负值替换为 0 我的数据框名为 df 包含一列名为 avg x 这是我创建 udf 的代码 val noNegative udf avg acc x Double gt if avg acc x lt
如果 Spark 中的数据帧是不可变的，为什么我们能够使用 withColumn() 等操作来修改它？

这可能是一个愚蠢的问题源于我的无知我已经在 PySpark 上工作了几个星期并没有太多的编程经验我的理解是在 Spark 中 RDD 数据帧和数据集都是不可变的我再次理解这意味着您无法更改数据如果是这样为什么我们能够使用编
在 Pandas UDF PySpark 中传递多列

我想计算 PySpark DataFrame 两列之间的 Jaro Winkler 距离 Jaro Winkler 距离可通过所有节点上的 pyjarowinkler 包获得 pyjarowinkler 的工作原理如下 from pyjar
特征/类类型参数优先于方法类型参数的规则是什么

我已经使用 scala 一段时间了我认为我真的开始理解一切好吧大多数事情但我发现自己对 Map 类中的许多方法定义感到困惑我知道 FoldLeft 等如何工作但我感到困惑的是 Map 函数中使用的类型参数我们以 FoldLef
如何在 Scala 中跳过可选参数？

给定以下带有可选参数的函数 def foo a Int 1 b Int 2 c Int 3 我想保留默认值a但将新值传递给b and c仅通过位置赋值而不是通过命名赋值即以下任何语法都可以 foo 5 7 foo 5 7 Scala 可
在无形状中，有两个列表，其中一个包含另一个的类型类

在无形中我正在尝试编写一个需要两个 HList 的函数l1 and l2任意长度具有以下属性的长度l1 and l2是相同的 l2包含的确切类型l1 包装在常量外部类型构造函数中 So if l1 was 1 1 2 hello HN
如何列出Resources文件夹中的所有文件（java/scala）

我正在编写一个函数需要访问资源中的文件夹并循环遍历所有文件名如果这些文件符合条件则加载这些文件 new File getClass getResource images sprites getPath listFiles 返回空指针
使用 Scala 在 Apache Spark 中拆分字符串

我有一个数据集其中包含以下格式的行制表符分隔 Title lt t gt Text 现在对于每个单词Text 我想创建一个 Word Title 一对例如 ABC Hello World gives me Hello ABC Worl

随机推荐

查找Python包中某些方法和函数的所有用法

给定一个包含某些模块的Python包我想找到该包中定义的方法和函数的所有用法我在想像 pycharms 这样的东西查找用法其中给定一个函数或方法它会显示调用该方法函数的所有行假设我的包有很多模块我想查找中定义的函数和方法的用法
在 Swift 中使用 where 子句扩展数组类型

我想使用 Accelerate 框架来扩展 Float 和 Double 但每个都需要不同的实现我尝试了显而易见的方法 extension Array
处理方向变化的状态

如何处理发生的方向事件的所有状态就像是开始之前保存一些屏幕状态发生时动画目的发生后加载屏幕状态我知道配置更改时可以处理方向变化我尝试了这个 public void onConfigurationChanged Config
Windows 窗体：具有多列的 TreeView 控件

有没有办法在 TreeView 控件中拥有多个列不标准 TreeView 不允许列您正在寻找的通常称为 TreeListView 所以你需要一个自定义控件 CodeProject 上列出了很多 TreeListView 用户控件精简
从 Struts2 表单提交填充集合

我正在尝试从表单填充 bean 列表 public class Foo public String attr1 public String attr2 public class Bar public List
是否可以从 scala 宏内的 WeakTypeTag 生成 Apply ？

我有一个WeakTypeTag我的宏中的某种类型我想生成如下代码 macroCreate SomeObject gt SomeObject 1 宏的定义将是这样的 def macroCreate A macro macroCreate A
错误：连接超时：连接 - Android

所以我只是安装了 Android studio 并运行了 Hello World 基本应用程序然后我得到这个错误错误连接超时连接我尝试从我的中删除 gradleUSER文件夹没有帮助非常感谢任何帮助谢谢将android s
如何从源代码中混淆的 ProGuard 类名中找到真实的类名？

我收到一封来自 Google 的电子邮件内容涉及TrustManager 的不安全实现唯一的线索表明有问题的代码位于 com b a af 类中显然这是一个混淆的名字我如何在我自己的源代码中从混淆的类名中获取真实的类名有什么方法可以
从 API 提取数据时的等待屏幕

我创建了一个 Python 脚本来使用 API 下载数据我还使用 PySimpleGUI 在其上放置了一个简单的 GUI 但是在下载数据时我想显示一个不确定的进度条或类似的东西下载完成后它将自行退出有没有办法实现这个要求呢有两种
WPF 命令行

我正在尝试创建一个采用命令行参数的 WPF 应用程序如果未给出参数则应弹出主窗口对于某些特定的命令行参数代码应在没有 GUI 的情况下运行并在完成后退出任何有关如何正确完成此操作的建议将不胜感激首先在 App xaml 文件
Java：可序列化内部类和匿名类是否应该具有 SerialVersionUID？

尽管我目前不打算序列化任何内容但我为所有可序列化的外部类以及静态嵌套类提供了一个SerialVersionUID 因为这是正确的方法不过我读过here that 由于多种原因强烈建议不要对内部类即非静态成员类的嵌套类包括本地类和
使用 ggpubr::stat_cor 绘制 ggplot 时出现解析错误（文本...）意外的逗号“，”并将输出小数设置为逗号（选项（OutDec =“，”））

设置完后输出小数到逗号使用 option 命令当使用函数 stat cor 将 Pearson 相关结果包含在 ggplot 中时出现以下错误 Error in parse text text i
System.out.print 不带“ln”的字符串

我有一个字节数组如下所示 0 0 0 0 0 0 0 0 122 98 117 54 46 0 0 115 122 42 0 0 0 0 0 0 0 0 0 0 0 116 121 116 117 108 0 0 0 0 0 0 0 0
MPMoviePlayerControlle缩略图ImageAtTime：timeOption：给出空的UIImage

我用它来获取视频的预览缩略图 void createThumb NSInteger paddingLeft 22 NSInteger paddingTop 22 CGFloat frameWidth self preview frame s
Mysql 查询到 ElasticSearch

我正在尝试将 MYSQL 查询转换为 Elasticsearch 查询包含不同字段上的多个条件让我解释一下我想要实现的目标我的 Mysql 查询是 Select from data fl where city IN miami miam
Tcl 将变量的值作为变量的名称

我在使用 Tcl 时遇到一些问题我有一个变量里面有一个字符串但现在我希望这个字符串成为下一个变量的名称我在网上发现了一些类似的问题但这些都是关于将一个变量的值放入另一个变量中不使用它作为变量的名称这是一个示例代码来帮助解释
如何在没有 sudo 的情况下构建库？

我通常会建立我的图书馆 configure make sudo make install 然而 Travis 文档不鼓励使用 sudohttp docs travis ci com user workers container based
GridView“ ”引发了未处理的事件 RowUpdating。 asp.net 背后的 C# 代码

Stackoverflow和其他网站上也有类似的问题但我似乎错过了一些东西我有一个 GridView 绑定到来自数据库的 DataTable 我的目标是使用调用以下方法的同一行中的按钮更新当时的一行 protected void Tes
TensorFlow：恢复 RNN 网络后损失猛增

环境信息操作系统 Windows 7 64位从预构建的 pip 安装的 Tensorflow 无 CUDA 1 0 1 Python 3 5 2 64 位 Problem 我在恢复网络 RNN 字符基础语言模型时遇到问题下面是具有相
Spark 查找 Dataframe 提高性能的最佳方法

数据框A 数百万条记录其中一列是create date modified date 数据框 B 500 条记录具有 start date 和 end date 目前的方法 Select a b from a join b on a cre

Spark 查找 Dataframe 提高性能的最佳方法

Spark 查找 Dataframe 提高性能的最佳方法 的相关文章

随机推荐

热门标签

Spark 查找 Dataframe 提高性能的最佳方法的相关文章