使用 Spark SQL 跳过/获取

2024-03-14

如何使用 Spark SQL 实现跳过/获取查询（典型的服务器端网格分页）。我在网上搜索过，只能找到非常基本的示例，例如：https://databricks-training.s3.amazonaws.com/data-exploration-using-spark-sql.html https://databricks-training.s3.amazonaws.com/data-exploration-using-spark-sql.html

我没有看到像 T-SQL 那样的 ROW_NUMBER() 或 OFFSET/FETCH 的任何概念。有谁知道如何做到这一点？

就像是：

scala > csc.sql("select * from users skip 10 limit 10").collect()

尝试这样的事情：

val rdd = csc.sql("select * from <keyspace>.<table>")
val rdd2 = rdd.view.zipWithIndex()
rdd2.filter(x => { x._2 > 5 && x._2 < 10;}).collect()
rdd2.filter(x => { x._2 > 9 && x._2 < 12;}).collect()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sql

scala

apachespark

datastaxenterprise

apachesparksql

使用 Spark SQL 跳过/获取的相关文章

SQL 查询结果为字符串（或变量）

是否可以将SQL查询结果输出到一个字符串或变量中我的php和mysql不好假设我有数据库 agents 其中包含列 agent id agent fname agent lname agent dept 使用此查询 sql SELECT
如何显示 RSpec 测试生成的 SQL 查询日志？

我正在为我的 Rails 3 应用程序编写规范我想测试数据库事务是否真的有效如果能够看到我的应用程序在规范驱动下生成的 sql 查询这将非常有帮助有没有办法像在 Rails 控制台中一样查看查询我正在使用 Rails 3 0 9
使用显式值进行 BigQuery 合并

据我所知 BigQuery 支持合并两个表目前 INSERT操作允许将显式值插入表中例如 INSERT dataset Inventory product quantity VALUES top load washer 10 front
Solr 增量导入不起作用

我使用的是solr 4 2 请注意完全导入有效但增量导入却无效增量导入不会给出任何错误但不会获取任何更改这是数据配置文件
如何向数据框spark添加标题和列？

我有一个数据框我想在其中添加标题和第一列手动这是数据框 import org apache spark sql SparkSession val spark SparkSession builder master local appN
如何初始化子类型中特征的值？

如果我写 trait T val t 3 val u 1 t Nil class U extends T override val t 2 new U u 它表明了这一点 List 1 0 我应该如何更改上面的代码以使其显示以下内容 Lis
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
创建自定义 scala 集合，其中映射默认返回自定义集合？

特质TraversableLike A Repr 允许人们在其中进行收藏some函数将返回一个Repr 而其他人则继续返回类型参数That在功能上有没有办法定义一个CustomCollection A 其中函数如map 其他的默认That
从VBA中的数组批量插入到sql中

我正在尝试在 Excel 中构建一个按钮将所选区域上传到 SQL Server 中的表中第一行将自动视为列标题这件事该怎么继续下去呢我想要的是简单和超快的上传这是我的想法我将选择选定的区域然后将其保存为 txt 文件然后对其
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
理解 scala 的 _ 与 Any/Nothing

如果一个类具有协变类型参数例如Iterable A http www scala lang org archives downloads distrib files nightly docs 2 10 1 library index ht
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
如何使用 FS2 中的分类器函数对对象进行分组？

我有一个无序的流measurements 我想将其分组为固定大小的批次以便以后可以有效地保留它们 val measurements for id lt Seq foo bar baz value lt 1 to 5 yield id va
SQL Server 2012（代号：Denali）CTP 3的FIRST_VALUE和LAST_VALUE的实际用途是什么

随着 Denali 的 CTP 3 版本的发布我们有了更多的分析功能其中我对其中两个感兴趣 a 第一个值 http msdn microsoft com en us library hh213018 28v SQL 110 29 asp
仅从数据库获取我想要的数据但保留结构

我正在尝试在 powerbi 上执行此操作但我想这只是基本的 SQL 我想将我的数据导入到 powerBi 中但使用一些 id 对其进行过滤我们以这个例子为例我与一些公司有数据库表1 每个公司都有建筑物表2 每个建筑物有员工表
play20 ebean 生成的 sql 在 postgresql 上抛出语法错误

我正在尝试使用 postgresql 来启动我的 play20 应用程序以便我可以使用并稍后部署到 Heroku 我跟着这个answer https stackoverflow com questions 12195568 errors
SBT 对 Scala 类型感到困惑

SBT 抛出以下错误 value split is not a member of String String error filter arg gt arg split delimiter length gt 2 对于以下代码块 impl
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
MySql如何通过过滤多列来限制多个数字？

我想从数据库中获取 4 个不同类别的 50 个问题我想要 4 个不同类别中每个类别的不同数量的问题我的结果集必须包含第一类 12 个问题第二类 20 个问题第三类 10 个问题和第四类 8 个问题我的问题表中总共有 50 个问题
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1

随机推荐

Delphi 7 - 表单中嵌入文件打开对话框

有谁知道是否可以在您自己的表单中嵌入文件打开对话框我们有一个选项卡式对话框在其中一个选项卡上我们希望用户能够浏览具有与标准打开对话框相同功能的文件例如查找组合框位置栏 shell 文件列表带有名称完成功能的文件名组合编辑等
使用 Selenium，是否可以创建一个模拟 WebElement 以在单元测试中使用？

使用 Selenium 是否可以创建一个虚拟 WebElement 以在单元测试中使用 Test public void testIt JavascriptExecutor js JavascriptExecutor driver WebE
Matplotlib 饼图标签对齐

我试图在 matplotlib 中创建一个饼图并希望将标签放在楔子内我使用以下代码来做到这一点 import matplotlib pyplot as plt fig plt figure 1 figsize 8 8 dpi 60 ax
如何在WPF中制作模板窗口？

所以我正在构建一个有很多窗口的应用程序所有窗口都具有相同的基本布局主窗口顶部角落有一个标志标题栏底部的状态显示器窗口特定控件的区域目前我必须在每个窗口中重新创建这个结构理想情况下我希望将此布局编码在一个位置也许编码到自定
如何使用 kafka 模式管理和 Avro 进行重大更改

使用 avro 进行 kafka 模式管理为我们提供了向后兼容性的灵活性但是我们如何处理模式中的重大更改假设生产者A向消费者C发布消息M 假设消息 M 的方案发生了重大变化例如名称字段现在分为名字和姓氏并且我们有新的方案 M Ne
字符串中的数字以查找该字符串中的 UNIX 字符

我有一个包含单词和数字的字符串如下所示 6 ovenbread 我怎样才能读取这个号码我们称之为i 并找到i这个词的第一个字符看起来s 0 9 1 2 不起作用我认为 awk 更容易它有substr函数允许您选择第 n 个字母
终止导致设备或资源繁忙的进程：“/dev/ttyUSB0”？

我使用以下 Python 代码连接到我的 Arduino 板 device glob glob dev ttyUSB 0 time sleep 1 arduino serial Serial device 115200 timeout 5
如何获取或生成 Google Cloud Run 服务的部署 URL

如何在 CI 环境中以编程方式获取已部署服务的 URL 成功部署后确实会记录 URL 但如果我想以编程方式提取并使用 URL 作为部署后需求的一部分例如该怎么办发布验收测试的 URL 只需使用该标志 format value stat
如何监控Linux上进程的线程数？

我想监视 Linux 上特定进程使用的线程数有没有一种简单的方法可以在不影响流程性能的情况下获取此信息 try ps huH p
如何在cx_Oracle和python 2.7中处理unicode数据？

我在用 Python 2 7 cx Oracle 6 0 2 我在我的代码中做了类似的事情 import cx Oracle connection string s s s 192 168 8 168 1521 xe connection
适用于 Azure Service Fabric 无状态 Web API 应用程序的 Swagger

我正在开发 Web API 服务并作为微服务托管在 Azure Service Fabric 上我需要为 API 定义实现 Swagger 并且我可以看到 SwaggerConfig Register 方法在应用程序启动时未调用所以我无
mysql_close 和 pg_close 是否是必需的？ [复制]

这个问题在这里已经有答案了可能的重复使用 mysql close https stackoverflow com questions 2065282 using mysql close 是否需要 mysql close 和 pg clo
Java HashMap Get 基准测试（JMH 与循环）

我的最终目标是使用标准 Java 集合作为基线为多个 Java 原始集合库创建一套全面的基准测试过去我曾使用循环方法来编写此类微基准我将要进行基准测试的函数放入循环中并迭代 100 万次以上以便 jit 有机会预热我计算循环的总时
如何在Python中使用AutoReg预测时间序列

我正在尝试仅使用自动回归算法来构建老式模型我发现它有一个实现statsmodel包裹我已阅读文档据我了解它应该像 ARIMA 一样工作所以这是我的代码 import statsmodels api as sm model sm
使用 AND 和 OR 的 C# 谓词生成器

我有以下课程 public class testClass public string name get set public int id get set public int age get set 和以下代码 var list new
如何在 MySQL 中返回数据透视表输出？

如果我有一个看起来像这样的 MySQL 表 company name action pagecount Company A PRINT 3 Company A PRINT 2 Company A PRINT 3 Company B EMAI
AttributeError：模块“jaxlib.xla_extension”没有属性“PmapFunction”

有人可以帮我修复在 check not jax transformed f 中的 usr local lib python3 7 dist packages haiku src transform py in check not jax t
Ruby Mechanize：点击链接

在 Mechanize on Ruby 中我必须为我访问的每个新页面分配一个新变量例如 page2 page1 link with text gt Continue click page3 page2 link with text gt
Cucumber 在一段时间后逐步停止执行

我的一个测试会等到事件发生Then步如果测试工作正常则没有问题但如果测试失败即没有触发任何事件那么它就会挂起我怎样才能设置超时Cucumber I know JUnit有一个超时参数您可以在 Test annotation h
使用 Spark SQL 跳过/获取

如何使用 Spark SQL 实现跳过获取查询典型的服务器端网格分页我在网上搜索过只能找到非常基本的示例例如 https databricks training s3 amazonaws com data exploration

使用 Spark SQL 跳过/获取

使用 Spark SQL 跳过/获取 的相关文章

随机推荐

热门标签

使用 Spark SQL 跳过/获取的相关文章