将数据帧添加到 Spark 中的列表

2024-01-16

我正在尝试创建“n”dataframes根据一的数据。我正在检查 a 的整数值column in dataframe并循环创建“n”的sql语句dataframes像......一样多Integers在专栏中。

这是我的代码：

val maxvalue = spark.sql("SELECT MAX(column4) as maxval FROM mydata").collect()(0).getInt(0)
for( i <- 0 to maxvalue){
         var query = "SELECT column1,colum2,colum3 FROM mydata WHERE column4 = "+ i
         val newdataframe = spark.sql(query)
         //add dataframe to List

}

我需要创建“n”dataframes但我不知道如何声明List在循环之前输入并填充到 for 中。

现有的dataframe数据类型：

// +------------+------------+------------+------------+
// |     column1|     column2|     column3|     column4|
// +------------+------------+------------+------------+
// |      String|      Double|         Int|         Int|
// +------------+------------+------------+------------+

The new dataframes数据类型：

// +------------+------------+------------+
// |     column1|     column2|     column3|     
// +------------+------------+------------+
// |      String|      Double|         Int|
// +------------+------------+------------+

您可以创建一个可变列表并填充它：

val dfs = mutable.ArrayBuffer[DataFrame]()
for( i <- 0 to maxvalue){
  val query = "SELECT column1,colum2,colum3 FROM mydata WHERE column4 = "+ i
  val newdataframe = spark.sql(query)
  dfs += newdataframe
}

但更好的方法（不使用可变数据结构）是map将整数列表放入 DataFrame 列表中：

val dfs: Seq[DataFrame] = (0 to maxvalue).map { i => 
  spark.sql("SELECT column1,colum2,colum3 FROM mydata WHERE column4 = " + i)
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sql

scala

list

apachespark

DataFrame

将数据帧添加到 Spark 中的列表的相关文章

使用实体框架创建临时表

我想使用实体框架在 SQL Server 中创建临时表我有什么办法可以做到这一点吗如果我可以创建临时表我的下一个问题是如何读取它提前致谢 Andr 好吧所以你不喜欢存储过程路线说实话我也不喜欢但这是我能想到的最快的方法基于
什么时候有2.13的sbt版本？

我想开发一个sbt插件其依赖项仅适用于斯卡拉2 13 我发现https github com sbt sbt issues 5032 https github com sbt sbt issues 5032这个列表 SBT 0 x 仅在 S
SQL查询中的Python列表作为参数[重复]

这个问题在这里已经有答案了我有一个 Python 列表比如说 l 1 5 8 我想编写一个 SQL 查询来获取列表中所有元素的数据例如 select name from students where id IN THE LIST l
检索前 10 行并对第 11 行中的所有其他行求和

我有以下查询来检索每个国家地区的用户数量 SELECT C CountryID AS CountryID C CountryName AS Country Count FirstName AS Origin FROM Users AS U
针对 SqlClient 的 getschema("foreignkeys") 未产生足够的信息

我需要两个表和两组字段而不是外键名称和其中一个表名称有谁知道如何查询SQL Server完整的外键信息谢谢这可能是一项复杂的冒险 GetSchema 和 INFORMATION SCHEMA 视图不完整导致需要直接查询 sys 视
在大表上快速使用 LIMIT 和 OFFSET 进行 SELECT

我的表中有超过 1000 万条记录 SELECT FROM tbl ORDER BY datecol DESC LIMIT 10 OFFSET 999990 输出EXPLAIN ANALYZE on 解释 depesz com http e
将 Spark 数据帧写入 csv 文件时出现“调用 o58.csv 时发生错误”错误

使用后df write csv尝试将我的 Spark 数据帧导出到 csv 文件中我收到以下错误消息 AppData Local Programs Python Python39 lib site packages py4j protoc
sql“LIKE”查询语法

这个查询有什么问题 string command get pay select Credit from Update Company Credit where Update Date LIKE System DateTime Today T
SQL Server 'FETCH FIRST 1 ROWS ONLY' 无效使用

我正在尝试将 Db2 查询转换为 SQL Server 我遇到了一个我不熟悉的构造仅 FETCH FIRST 1 ROWS 这是在 db2 上运行的查询 select from products series where state xx
Python 检查列表是否嵌套

我有一个列表有时它是嵌套的有时不是根据是否嵌套延续不同如何检查此列表是否嵌套 True or False应该输出 example 1 2 3 gt False 1 2 3 gt True 您可以使用isinstance https
需要在SQL Server 2012中自动递增字符串

考虑 SQL Server 2012 中的表 789 0000000 上面的数字在 SQL Server 2012 中将被视为字符串但每当我更新记录时我都需要增加到 1 例如当我更新记录 1 时它应该增加到789 0000001 当
需要根据数据框中的行号应用不同的公式

我正在努力在数据框中找到某种移动平均值该公式将根据正在计算的行数而变化实际场景是我需要计算Z列 Edit 2 以下是我正在使用的实际数据 Date Open High Low Close 0 01 01 2018 1763 95 176
C# 与 INSERT 存储过程 \r\n 问题

基本上我有一个非常简单的插入语句 INSERT INTO dbo ORDER ORDER DATE ORDER TYPE ID PAYMENT STATUS ID TOTAL COST SENDER NAME SENDER EMAIL SE
一起调用distinct和map会在spark库中抛出NPE

我不确定这是否是一个错误所以如果你这样做 d spark RDD String d distinct map x gt d filter equals x 您将获得 Java NPE 但是如果你做了一个collect之后立马distinc
分区表查询仍然扫描所有分区

我有一个包含超过十亿条记录的表为了提高性能我将其分区为30个分区最常见的查询有 id 在他们的 where 子句中所以我决定对表进行分区id column 基本上分区是这样创建的 CREATE TABLE foo 0 CHECK
SQL：删除SQL Server中的重复记录

我有一个 sql server 数据库我预先加载了大量数据行不幸的是数据库中没有主键并且表中现在存在重复信息我不担心没有主键但我担心数据库中有重复项有什么想法吗原谅我是一个sql server新手嗯这就是表上应该有主键的
获取每月第二个星期二的日期

有没有办法使用 T SQL 语法找出每月第二个星期二的日期例如三月是十二号四月是九号您可以通过此方法查找 2013 年所有第二个星期二 select dateadd day 8 datediff day 1 dateadd mon
使用 Athena 从 AWS WAF 日志中的规则组列表获取终止规则

我跟着这些说明 https docs aws amazon com athena latest ug waf logs html将我的 AWS WAF 数据放入 Athena 表中我想查询数据以查找具有 BLOCK 操作的最新请求此查询
将 SQL 变量传递给 ASP

这里只是有点语法问题我正在使用 SQL 和 ASP 并且到目前为止有以下代码 set rs Server CreateObject ADODB recordset rs Open Select from Questions conn sq
解析整数集的字符串并列出间隔

I have 2 5 7 9 12 string 我想从中获取 2 5 7 8 9 12 列表 python中有没有内置的函数 Thanks UPD 我想直接的答案是No 不管怎样谢谢你的片段使用一个建议者斯文马尔纳克 s 2

随机推荐

使用rentrez从pubmed中解析出作者和隶属关系

我的总体目标是构建一个共同作者网络图我有一份 PubMed ID 列表这些是我唯一对绘制合著者网络图表感兴趣的出版物我不知道如何使用rentrez 在查询中将作者姓名和各自的隶属关系放在一起我可以获得这两个信息但我的隶属关系列表比
在 Python 中使用正则表达式替换除特定元素之外的所有元素

在Python中使用正则表达式我试图删除字符串中的所有XML类型元素除了那些包含QUOTE的元素例如
如何包含文件上传对话框

我获得了一些 C 图形扩展代码来上传 Excel 文件以便导入到购买收据屏幕上的分配弹出屏幕中未包含的是似乎用作对话框的 PXSmartPanel 任何关于如何设置配置此智能面板以实现给定代码中的目的的帮助将不胜感激有问题的
我应该如何本地化现有的 JavaScript Web 应用程序？

我有一项非常棘手的任务要做有一个现有的 Web 项目 2 个 HTML 文件一些插件和一个包含大约 2000 行代码的主要 JavaScript 文件我现在必须对其进行本地化毫无疑问这应该早点考虑到但他们只是错过了您将如何寻找
为什么 R 和 Python 之间得到不同的 RandomForest 结果？

我正在尝试比较使用 R 和使用 Python 的随机森林模型的结果我要比较的模型性能的关键衡量指标是 AUC ROC 曲线下面积原因是 AUC 值代表预测值即概率的分布我确实发现 R 和 Python 之间的 AUC 值存在一些显
如何在不使用 Java 中的日历并且没有时间戳的情况下获取昨天的日期？ [复制]

这个问题在这里已经有答案了我写了一个方法来获取当前日期的格式yyyy MM dd并希望能够创建另一种方法来获取昨天的日期即当前日期的前一天所有这些需要的是日期而不是时间戳我不想使用Calendar以及我这样设置当前日期 publi
phpmyadmin启用删除数据库语句

我的托管提供商提醒我我超出了 1000 桌限制我有很多数据库想一次删除更多不幸的是他们没有多选功能所以我决定在 phpmyadmin 中使用查询当我尝试类似的事情时DROP database some name I get D
如何计算手机从静止状态到垂直方向的移动量？

我正在使用 android 操作系统开发一个应用程序我需要知道如何计算设备在垂直方向上的移动例如设备处于静止状态 A点用户将其拿在手中 B点现在A点和B点之间存在高度变化我将如何计算我已经阅读了有关传感器和加速度计的文章但我
CodeBehind 中的动态上下文菜单

我只想为我动态创建的几个对象添加 ContextMenu 但是我发现的唯一方法是在运行时创建 ContextMenu 如下所示 ContextMenu pMenu new ContextMenu MenuItem item1 new Me
如何在 Doxygen 示例中保留注释

我有一个简单的方法带有一条注释我想在我的 doxygen 主页中用作示例 code void showNum int numToDisplay This is just a method to display a value std c
有没有办法对打印媒体和默认布局使用相同的 CSS 样式表？

我正在寻找一种方法为打印媒体使用与默认屏幕布局相同的样式表对我来说的好处是我不必每次更新 CSS 时都更新 2 个文件我更喜欢有一个样式表并通过以某种方式表示它们来指定印刷媒体的特殊规则这可能是不可能的但我想我应该把问题放在那里
Python - 解析 Json 和 XML 哪个更快？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
更改 php 中检索到的日期的时区

我正在从数据库中检索格式为 2013 09 15 08 45 00 的日期该日期是在 UTC 中设置的我需要将其更改为另一个动态时区基于用户到目前为止我已经 datetime row gt field data field perf
乌龟的笔触可以改变吗？

我需要使用 Python 的海龟图形来绘制条形图我认为简单地将笔做成粗正方形会更容易这样我就可以像这样绘制条形图而不必担心制作数十个矩形并填充它们当我使用设置乌龟形状时turtle shape square 不过它只会改变笔的外观
Pycharm Django 调试真的很慢

我有一个中等大小的网站但 PyCharm 需要大约 30 秒才能启动 Runserver 并准备好运行应用程序如果我运行应用程序而不是调试则启动只需大约 3 秒我可以做哪些事情来加快代码更改和调试周期我使用的是带有 16Gb
Cassandra 节点几乎空间不足，但 Nodetool 清理正在增加磁盘使用？

我们的一个节点的磁盘使用率为 95 我们向集群添加了另一个节点希望能够重新平衡但该节点上的磁盘空间并没有下降我尝试执行nodetool cleanup 假设节点上有多余的键但磁盘空间正在增加清理真的会减少尺寸吗是的会的但是您
验证出生日期并检查年龄[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案在我的表单中我使用下拉菜单来显示日月年你能帮我验证一下日期吗我必须验证输入的年龄是否大于 15 岁还要检查闰年等 PHP
如何在react中不添加url的情况下导航到特定路线

我在用着react router我有一些嵌套的路线 stories and stories storyId 现在我的问题是我有一个组件是一个单一的故事并使用这个特定的storyId导航至路线 stories storyId 单击它即可查看该
Asp.net Core 模型绑定器接受布尔类型的随机整数

鉴于模型具有布尔属性 public class Person public string Name get set public bool IsMale get set 当尝试发布以下有效负载时 name Bob isMale 12345
将数据帧添加到 Spark 中的列表

我正在尝试创建 n dataframes根据一的数据我正在检查 a 的整数值column in dataframe并循环创建 n 的sql语句dataframes像一样多Integers在专栏中这是我的代码 val maxvalue

将数据帧添加到 Spark 中的列表

将数据帧添加到 Spark 中的列表 的相关文章

随机推荐

热门标签

将数据帧添加到 Spark 中的列表的相关文章