合并 Spark 数据框中的两列以形成单列

2023-12-26

我有一个包含两列的 Spark 数据框；src_edge and dest_edge。我只是想创建新的 Spark 数据框，使其包含单个列id值来自src_edge and dest_edge.

src dst
 1   2
 1   3

我想创建df2 as:

如果可以的话我也想创建df2没有重复值。有谁知道如何做到这一点？

Update

最简单的事情可能是选择每一列，union他们，并打电话distinct:

from pyspark.sql.functions import col
df2 = df.select(col("src").alias("id")).union(df.select(col("dst").alias("id"))).distinct()
df2.show()
#+---+
#| id|
#+---+
#|  1|
#|  3|
#|  2|
#+---+

您还可以通过外连接来完成此操作：

df2 = df.select(col("src").alias("id"))\
    .join(
        df.select(col("dst").alias("id")),
        on="id",
        how="outer"
    )\
    .distinct()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Graph

PySpark

合并 Spark 数据框中的两列以形成单列的相关文章

在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null
Gremlin 中的广度优先枚举

我正在尝试使用 Gremlin 进行广度优先枚举但是我无法找到一种方法来输出枚举期间观察到的所有步骤我只能打印出最后一次迭代的结果我的问题是给定这样的起始节点我如何使用 Gremlin 跟踪所有路径不知道整体深度并打印出我沿途
参数映射不能用于 MERGE 模式

我收到错误参数映射不能在合并模式中使用我如何解决此错误我正在使用下面的代码我非常感谢任何帮助提前致谢 MERGE u Person names RETURN u and data2 names name Keanu Reeves1
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
如何从字符串列中提取数字？

我的要求是从列中的评论列中检索订单号comment并且总是开始于R 订单号应作为新列添加到表中输入数据 code id mode location status comment AS SD 101 Airways hyderabad D
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
如何从该 Voronoi 图数据中获取单元格字典？

使用找到的voronoi delaunay图生成库在这个节目中 http sourceforge net projects mapmanager 这是基于财富最初的实施他的算法 http en wikipedia org wiki Fo
以编程方式结束/退出粘合作业

我正在使用 Glue 书签来处理数据我的工作是每天安排的但也可以手动启动由于我使用书签有时胶水作业可以在没有新数据要处理的情况下启动然后读取的数据帧为空在这种情况下我想好好地结束我的工作因为它没有什么关系我试过 if
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？

更多源数据来自我需要定期轮询的 Web 服务端点获得数据后我可以使用 pyspark 执行传统的 ETL 并最终将数据写入 S3 和 Redshift 我不确定如何进行初始提取甚至不确定我应该在 AWS Glue 文档中查找什么内容
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
d3力定向布局-链接距离优先

在 d3 中使用力导向布局如何使链接距离成为优先事项同时仍然保持良好的图形布局如果我指定动态链接距离但保留默认费用则我的图形距离会因费用函数而发生一些变形并且不再是准确的距离但是如果我删除电荷图表将如下所示任何建议表示赞
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo

随机推荐

如何在 ASP.NET MVC 中基于每个用户删除输出缓存？

我在用着VaryByCustom在每个浏览器和每个用户的基础上创建输出缓存 OutputCache Duration 6000 VaryByParam VaryByCustom browser userName 我已经重写了GetVaryB
MongoDb - 查询数组

基于 MongoDB 文档https docs mongodb com manual tutorial query arrays https docs mongodb com manual tutorial query arrays 我有这
枚举变量的默认值是多少？

一个枚举变量有人知道它是否总是默认为第一个元素它是枚举中代表值的任何成员0 具体而言从文档 http msdn microsoft com en us library sbbt4032 aspx 默认值enum E是表达式产生的值 E
触发器什么时候触发，什么时候不触发

关于 SQL Server 2005 中的触发器的非常普遍的问题在什么情况下会触发表触发器什么情况下不会任何可以演示的代码示例都很棒我正在编写一个基于审计的数据库只是想了解任何可能不会触发我为更新删除和插入表而设置的触发器的情况
Android 对话框：删除标题栏

我有一种奇怪的行为我无法确定其来源我有我的经典应用程序 requestWindowFeature Window FEATURE NO TITLE 删除标题状态栏然后我创建一个对话框以允许用户输入信息姓名等使用物理键盘没问题但
将函数应用于 data.table 的每一行

我正在寻找一种方法来有效地将函数应用于 data table 的每一行让我们考虑以下数据表 library data table library stringr x lt data table a c 1 3 1 b c 12 13 14
使用 boto3 lib 和 AWS Lambda 从 S3 存储桶中的压缩文件获取数据流

我正在尝试为我的 cron 作业创建一个无服务器处理器在这项作业中我从我的一个客户那里收到了 S3 存储桶中的一个压缩文件文件在附近50MB大小但一旦你解压它它就变成了1 5GB大小并且 AWS Lambda 上的可用空间存在硬
使用 Python 创建 WPA 消息完整性代码 (MIC)

我尝试计算 WPA 握手数据包的 MIC 但不幸的是它失败了更准确地说我采用了 802 1x 数据包如规范所述 MIC HMAC MD5 MIC Key 16 802 1x data 这是相关代码 mic hmac new ptk 0
WebDriverException：消息：参数无效：无法在 RaspberryPi3 上使用 GeckoDriver、Selenium 和 Python 杀死已退出的进程

服务器树莓派3操作系统 Dietpi 版本 159Geckodriver 版本 arm 0 22火狐版本 52 9 0Python版本 3 5硒版本 3 14 1 Gecko 是可执行的位于 usr local bin from sel
如何知道 flutter sqflite 中是否存在行？

我必须知道特定行存在于何处uidCol列是aaa in tagtable 但我不知道所以我只是使用try catch block 我想做的是检查本地数据库如果没有数据则从 firestore 获取我正在做的事情如下 try await
我可以更改 CodeRush Express for Visual Studio 免费版上的按键绑定吗？

注意我尝试在 coderush devexpress 论坛上发帖但像往常一样没有收到任何回复希望一些 SO 用户使用 coderush express 并可能提供帮助你好我刚刚安装了免费的 CodeRush XPress 插件
SSIS：代码页返回到 65001

在我正在编写的 SSIS 包中我有一个 CSV 文件作为源在连接管理器常规页面上有65001作为代码页我正在测试一些东西不检查 Unicode 这些列映射到 SQL Server 目标表varchar 除其他外列目标处出现
如何为 IIS 6 创建自签名通配符 SSL 证书？

我正在尝试创建一个自签名通配符 SSL 证书以便在运行 IIS 6 的许多开发和测试服务器上使用遵循各种指南导致了几种生成证书的方法但我没有任何运气让它工作我最成功的方法是以下这个 OpenSSL 指南 http beyondint
Pinterest 就像 Android 中的 Grid

我想构建一个类似于 Android 上 Pinterest 应用程序中的网格我开始延长AdapterView
PyQt - 如何使用 QItemDelegate 在表视图中设置 QComboBox

我试图在表格中显示一个组合框以便我可以从表格模型中设置选定的索引就像表格中的其他单元格一样我已经从其他示例中将其拼凑在一起但仍然无法理解交互如何设置 QComboBox 的选定索引这是我能想到的用来演示该问题的最简单的例子如果有
使用 nuxt-link 导航到不同页面上的锚点/哈希不起作用

我想从另一个页面导航到页面的特定部分所以我在 nuxt config js 文件的路由器对象中添加了scrollBehavior函数如下所示 router scrollBehavior to if to hash return sele
将控件的可见性绑定到 IEnumerable 的“Count”

我有一个 IEnumerable 中包含的对象列表我想根据此列表的计数设置控件的可见性我努力了 Visibility Binding MyList Count gt 0 Collapsed Visible Mode OneWay 但这行
检查 Vim 中是否存在来自命令调用的函数的当前活动视觉选择

情况 1 我刚刚选择了一个文本块然后我输入 Command 它会调用一些函数情况 2 当前没有视觉选择尽管我之前可能在编辑会话中做出了这样的选择我输入 Command 它调用相同的函数是否有一种稳健的方法可以从函数内部区分
javascript 在非字母数字上分割并在开始处保留分隔符

我目前正在将一些 PHP 代码重新编码为我的 Node js 服务器的 JavaScript 代码我的 PHP Regex 看起来像这样 timevalue W5D4H7M34S12 aSplitted preg split lt d a
合并 Spark 数据框中的两列以形成单列

我有一个包含两列的 Spark 数据框 src edge and dest edge 我只是想创建新的 Spark 数据框使其包含单个列id值来自src edge and dest edge src dst 1 2 1 3 我想创建df2

合并 Spark 数据框中的两列以形成单列

合并 Spark 数据框中的两列以形成单列 的相关文章

随机推荐

热门标签

合并 Spark 数据框中的两列以形成单列的相关文章