Spark-单调递增 id 在数据帧中无法按预期工作？

2024-02-16

我有一个数据框df在 Spark 中，它看起来像这样：

scala> df.show()
+--------+--------+
|columna1|columna2|
+--------+--------+
|     0.1|     0.4|
|     0.2|     0.5|
|     0.1|     0.3|
|     0.3|     0.6|
|     0.2|     0.7|
|     0.2|     0.8|
|     0.1|     0.7|
|     0.5|     0.5|
|     0.6|    0.98|
|     1.2|     1.1|
|     1.2|     1.2|
|     0.4|     0.7|
+--------+--------+

我尝试使用以下代码包含 id 列

val df_id = df.withColumn("id",monotonicallyIncreasingId)

但 id 列不是我所期望的：

scala> df_id.show()
+--------+--------+----------+
|columna1|columna2|        id|
+--------+--------+----------+
|     0.1|     0.4|         0|
|     0.2|     0.5|         1|
|     0.1|     0.3|         2|
|     0.3|     0.6|         3|
|     0.2|     0.7|         4|
|     0.2|     0.8|         5|
|     0.1|     0.7|8589934592|
|     0.5|     0.5|8589934593|
|     0.6|    0.98|8589934594|
|     1.2|     1.1|8589934595|
|     1.2|     1.2|8589934596|
|     0.4|     0.7|8589934597|
+--------+--------+----------+

正如你所看到的，从 0 到 5 进展顺利，但下一个 id 是8589934592代替6等等。

那么这里出了什么问题呢？为什么 id 列没有在此处正确索引？

它按预期工作。此函数不适用于生成连续值。相反它按分区编码分区号和索引 https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24

生成的ID保证单调递增且唯一，但不连续。当前的实现将分区 ID 放在高 31 位中，将每个分区内的记录号放在低 33 位中。假设数据框的分区数少于10亿个，每个分区的记录数少于80亿条。

例如，考虑一个具有两个分区的 DataFrame，每个分区有 3 条记录。该表达式将返回以下 ID：

0, 1, 2, 8589934592 (1L << 33), 8589934593, 8589934594.

如果您想要连续的数字，请使用RDD.zipWithIndex.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

Spark-单调递增 id 在数据帧中无法按预期工作？的相关文章

为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定
pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data
使用 Pyspark 从 S3 读取时，内容长度分隔消息正文过早结束 SparkException

我正在使用下面的代码来阅读S3 csv 文件从我的本地机器 from pyspark import SparkConf SparkContext from pyspark sql import SparkSession import con
Spark Dataframe 中的分析

在这个问题中我们有两个经理 M1 和 M2 在经理 M1 的团队中有两个员工 e1 和 e2 在 M2 的团队中有两个员工 e4 和 e5 以下是经理和员工的层次结构 1 M1 a e1 b e2 2 M2 a e4 b e5 我们有以下
如何将 JVM 选项传递给 SBT 以在运行应用程序或测试用例时使用？

我想在运行我的应用程序或通过 SBT 对应用程序进行测试时指定 JVM 选项具体来说我需要能够为 JVM 提供 Djava security policy 参数以便加载我的策略并用于测试我怎样才能用 SBT 做到这一点 With x
如何通过数据框中数组列的索引计算平均值

我正在使用 Spark 2 2 我有一个关于合作的基本问题ArrayType 我没有找到可以使用的内置聚合函数 Given a DataFrame有一个柱子id和一列values of ArrayType 我们想按 id 分组然后按索引计
Slick 中的 Scala 枚举（案例对象），良好实践

假设我有一个代表一组几个有效状态的特征将对象存储在数据库中是一个好习惯吗存储 Int 并使用隐式函数 MappedColumnType base Int DoorState 将它们映射到 DoorState 会更好吗 trait Doo
一般处理枚举的 Scala 类

我想创建一个通用类来保存枚举的值并且还允许访问枚举的可能值以属性编辑器为例您需要知道属性的当前值并且还需要能够知道该属性的其他合法值并且枚举的类型不应该提前知道您应该能够使用任何类型的枚举我的第一个想法是这样的 class E
标识符中下划线的 Scala 风格指南

我已经接受了许多其他语言的观点即下划线在标识符中具有与字母表一样多的自由度因此 v and v 另外尾随下划线是受到推崇的避免与保留关键字产生歧义 class case val abc 0
Scala 将集合转变为按键映射的最佳方法？

如果我有一个收藏c类型的T并且有一个属性p on T 类型P 说最好的方法是什么按提取键映射 val c Collection T val m Map P T 一种方法如下 m new HashMap P T c foreach t gt
在 scala 中混合类型参数和抽象类型

我正在尝试使用的答案前面的问题 https stackoverflow com questions 2059601 circular type parameters definition in scala实现一个小型图形库这个想法是将图视
如何找到两个数据帧之间的精确和非精确匹配？

我有两个数据框 df1 id amount fee 1 10 00 5 0 2 20 0 3 0 3 90 130 0 4 120 0 35 0 df2 exId exAmount exFee 1 10 00 5 0 2 20 0 3 0
Spark toLocalIterator 和迭代器方法之间的区别

在编写 Spark 程序时我遇到了这个toLocalIterator 方法之前我只使用iterator method 如果有人曾经使用过这种方法请点亮我在使用时遇到foreach and foreachPartitionSpark程序
Scala 类型别名破坏了类型兼容性

我始终相信如有必要类型别名总是会扩展为其原始类型但是这里有一个麻烦制造者 def a P a Option P type Res List P result type alias Nil Res Replace this line
将spark.local.dir设置为不同的驱动器

我正在尝试在 Windows 10 上设置独立 Spark 我想设置spark local dir to D spark tmp tmp 目前它似乎正在使用C Users
具有定期更新的静态数据集的结构化流

将流媒体与静态数据集合并是结构化流媒体的一个重要功能但在每个批次中数据集都会从数据源刷新由于这些源并不总是那么动态因此在指定的时间段或批次数内缓存静态数据集会提高性能在指定的时间段批次数之后将从源重新加载数据集否则从缓存
SBT - 使用汇编时多项目合并策略和构建 sbt 结构

我有一个由多个较小项目组成的项目其中一些项目相互依赖例如有一个依赖于 commons 项目的实用程序项目其他项目可能依赖于公用事业或公共设施也可能不依赖于两者在 build sbt 中我在文件末尾有程序集合并策略以及程序集中
使用 Python 用另一个嵌套 Json 更新嵌套 Json

例如我有一套完整的嵌套 JSON 我需要使用另一个嵌套 JSON 中的最新值来更新此 JSON 谁能帮我这个我想在 Pyspark 中实现这个完整的 Json 看起来像这样 email email protected cdn cgi
单击“发送”按钮事件时，我们可以在哪里获取 xml/元数据格式的表单数据？

我是一个新的 scala 学习者作为要求的一部分我需要将表单数据插入 activemq 队列中以进行提交事件我尝试调试发送方法代码以了解单击 FormRunnerActions scala 类中的发送按钮时我们到底在哪里获取 xml

随机推荐

Flex：包裹的物品与其他物品的宽度相同

我使用 Flex 创建一个多列列表该列表根据容器的宽度调整列数我发现的问题是如果我想通过将 flex grow 设置为 1 来使用父级的完整宽度则最后一个换行行中的项目会未对齐因为它们试图填充父级我发现了两种对我不起作用的解决方
如果屏幕尺寸小于指定值，则将水平块转换为垂直块

在下面的代码中我希望水平三列块放置并堆叠在彼此之上以防容器的大小小于 X 像素对于较小或移动设备我应该如何以及在表的哪个元素上应用此属性请注意代码是一个内容块因此我不想将 CSS 应用于整个电子邮件模板或电子邮件除非这是解决这
HKLM\Software 下的 OpenSubKey 返回 null

这是我的代码 Microsoft Win32 RegistryKey key Microsoft Win32 Registry LocalMachine OpenSubKey SOFTWARE ADM 该注册表项存在于计算机上键始终为空
ASP.NET Core上的静态文件

我正在尝试启用静态文件ASP NET Core 2 0Web应用程序我在一个名为 updater 的文件夹中有一堆文件该文件夹位于wwwroot文件夹为了允许访问它们我添加了 app UseStaticFiles new Stati
使用 numpy 将二进制掩码应用于 RGB 图像时出现问题

我正在尝试使用 numpy 将二进制掩码应用于 RGB 图像我找到了这个https stackoverflow com a 26843467 4628384 https stackoverflow com a 26843467 46283
Android NDK：从 C++ 调用 Java 函数

我对 JNI 非常陌生在将 C iOS 代码移植到 JNI 之前我试图弄清楚某些事情是如何工作的我成功地让 NDK 示例之一在 Android studio 中运行我可以看到 Java 如何调用 C 函数我一直在四处寻找并获取大量
从 SQL 导出数据并写入文本文件（不能使用 CP 或 SP）

因此我正在寻找一种简单的方法来从 SQL Server 2000 数据库导出数据并将其写入逗号分隔的文本文件它只有一张表只有大约 1 000 行我是 C 新手所以如果这是一个愚蠢的问题请原谅我这是一项非常简单的任务但您需要了
如何在使用 XSL-FO 生成的 PDF 中插入换行符

我正在使用 XSL FO 和 XML 生成 PDF 在文本框中用户可以输入 1 等数据然后按 ENTER 然后按 2 ENTER 3 等但在 XML 和 PDF 中输出是 1234567 如何保留换行符我已经尝试过了white s
Vue props 数据未在子组件中更新

大家好我只是想要一些关于 vue props 数据的解释所以我将值从父组件传递到子组件问题是当父数据发生数据更改更新时它不会在子组件中更新 Vue component child component template div c
Blazor JsInterop：调用 JS 时 Div 不可用

该问题涉及客户端 Blazor 组件该组件包含一个被组件变量隐藏的 div bool 打开我需要组件在组件代码文件中显示 div 之后运行一些 Javascript 以便调整它在屏幕上的位置下面的代码应该更好地解释这一点组件 raz
为什么要使用弹簧？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
NetworkStream 和 Socket 类有什么区别？

我有一个项目我可能想抽象客户端和服务器之间的通信我最初使用的是套接字和 TCP 然后我认为能够切换到进程间通信通道可能会很好然后我查看了 System IO PipedStream 类发现 PipeStream 和 Socket 类
PowerShell Start-Service无限运行

Problem 因此我有一段代码用于启动服务如果服务花费太长时间并且在大多数情况下工作正常则服务超时不幸的是当该服务尝试启动无法启动的服务时它会显示以下警告消息 WARNING Waiting for ServiceName
从数组中删除重复的字符串？

如何在不使用 HashSet 的情况下从字符串数组中删除重复的字符串我尝试使用循环但没有删除的话 StringBuffer outString new StringBuffer Our aim and isn t easy you yo
创建 OpenLayer 圈时出现问题

如何在openlayer地图中画一个圆我尝试过不同的方式但它不起作用请帮助我编写代码我使用了以下代码但它创建了多边形 var p1 new OpenLayers Geometry Point 439000 114000 var p
我可以在我的视图模型中创建一个实时数据观察器吗？或者我应该始终观察片段/活动？

我是 MVVM 新手因此我的片段活动向服务器发出了 2 个请求第一个请求的结果将用作第二个请求的输入参数因此首先在我的片段中当单击按钮时我会发出请求以检查用户是否被禁止如果没有则该用户可以创建帖子所以首先我检查用户是否
检测两年以上的浏览器

这是一个拥有大约 10 000 个用户的私人公司网站我已经看到了一些浏览器检测的努力但与浏览器的年龄无关有人对此有想法吗相关项目 http fresh browsers com en http fresh browsers com
RESTEasy Mock 与异常映射器与上下文

RESTEasy 模拟框架工作正常没有异常映射器接收请求并返回带有预期内容的实体注册异常映射器并强制异常后当 RESTEasy 内部调用 ResteasyProviderFactory getContextData type 时调
如果 div 包含
标签，jQuery 返回 true 或 false

让我们来看看 div p this div contains a p tag p div div this one is not div 如果 div 包含特定标签如上例中的 p 如何为变量分配布尔值 true 或 false div h
Spark-单调递增 id 在数据帧中无法按预期工作？

我有一个数据框df在 Spark 中它看起来像这样 scala gt df show columna1 columna2 0 1 0 4 0 2 0 5 0 1 0 3 0 3 0 6 0 2 0 7 0 2 0 8 0 1 0 7 0

Spark-单调递增 id 在数据帧中无法按预期工作？

Spark-单调递增 id 在数据帧中无法按预期工作？ 的相关文章

随机推荐

热门标签

Spark-单调递增 id 在数据帧中无法按预期工作？的相关文章