如何尽可能高效地将存储在 RDD 列中的多个 json 表“缩减”为单个 RDD 表

2023-12-21

使用以下代码在数据帧中使用联合来并发访问附加行是否可以正常工作？目前显示类型错误

from pyspark.sql.types import *
schema = StructType([
    StructField("owreg", StringType(), True),StructField("we", StringType(), True)
        ,StructField("aa", StringType(), True)
        ,StructField("cc", StringType(), True)
        ,StructField("ss", StringType(), True)
        ,StructField("ss", StringType(), True)
        ,StructField("sss", StringType(), True)
])

f = sqlContext.createDataFrame(sc.emptyRDD(), schema)
def dump(l,jsid):
    if not l.startswith("<!E!>"):
         f=f.unionAll(sqlContext.read.json(l))
savedlabels.limit(10).foreach(lambda a: dump(a.labels,a.job_seq_id))

假设 sqlContext.read.json(l) 将读取 json 并输出具有相同架构的 RDD

模式是我想尽可能高效地将存储在 RDD 的列中的多个 json 表“减少”为 RDD 表。

def dump(l,jsid):
    if not l.startswith("<!E!>"):
        f=f.unionAll(sc.parallelize(json.loads(l)).toDF())

当工作线程调用 sc.parallelize 时，上述代码也将不起作用。那么如何解决这个问题呢？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

concurrency

PySpark

apachesparksql

如何尽可能高效地将存储在 RDD 列中的多个 json 表“缩减”为单个 RDD 表的相关文章

Python：多处理和请求

以下是我正在运行的使用多处理并行触发 HTTP 请求的代码片段在控制台上运行后它挂在 requests get url 处既不继续前进也不抛出错误 def echo 100 q print before r requests get
如何配置散景图以具有响应宽度和固定高度

我使用通过组件功能嵌入的散景实际上我使用 plot sizing mode scale width 它根据宽度进行缩放并保持纵横比但我想要一个响应宽度但固定或最大高度这怎么可能实现呢有stretch both and scale b
按 ListProperty (NDB) 对查询进行排序

如何按 ListProperty 对查询进行排序该模型 class Chapter ndb Model title ndb StringProperty required True version ndb IntegerProperty
垂直线 axvline 在 matplotlib 的 loglog 图中绘制位于错误位置的线

我在使用 axvline 在 matplotlib 的 loglog 图中绘制垂直线时遇到问题第一个问题是垂直线没有出现在正确的位置第二个问题可能相关的是当我放大或平移绘图时垂直线只是保持在原位并且没有通过平移滑动绘图或放大
在一张图中同时绘制两个截面强度

我有一个形状数组 512 512 看起来像行 x 列 y 密度 z 数组的数量 0 012825 0 020408 0 022976 0 015938 0 02165 0 024357 0 036332 0 031904 0 025462
用于打印 C/C++ 文件的所有函数定义的 Python 脚本

我想要一个 python 脚本来打印 C C 文件中定义的所有函数的列表 e g abc c定义两个函数为 void func1 int func2 int i printf d i return 1 我只想搜索文件 abc c 并打印其中
在 C# 中实例化 python 类

我已经用 python 编写了一个类我想通过 IronPython 将其包装到 net 程序集中并在 C 应用程序中实例化我已将该类迁移到 IronPython 创建了一个库程序集并引用了它现在我如何真正获得该类的实例该类看起来
keras 预测内存交换无限期增加

我使用keras实现了一个分类程序我有一大组图像我想使用 for 循环来预测每个图像然而每次计算新图像时交换内存都会增加我尝试删除预测函数内部的所有变量并且我确信该函数内部存在问题但内存仍然增加 for img in ima
指定 Parquet 属性 pyspark

如何在 PySpark 中指定 Parquet 块大小和页面大小我到处搜索但找不到任何有关函数调用或导入库的文档根据火花用户档案 https mail archives apache org mod mbox spark user 2
如何创建指向指针数组的 Python ctypes 指针

我需要学习如何处理char 在下面的 C 方法中通过 Python ctypes 我通过使用调用其他只需要单个指针的方法做得很好create string buffer 但此方法需要一个指向指针数组的指针 ladybugConvertToM
如何使用 python-gnupg 加密大型数据集而不占用所有内存？

我的磁盘上有一个非常大的文本文件假设它是 1 GB 或更多还假设该文件中的数据有 n每 120 个字符一个字符我在用python gnupg https pythonhosted org python gnupg 对此文件进行加密由
通过套接字发送字符串（python）

我有两个脚本 Server py 和 Client py 我心中有两个目标能够从客户端一次又一次地向服务器发送数据能够将数据从服务器发送到客户端这是我的 Server py import socket serversocket soc
Apache Spark 从 S3 读取异常：内容长度分隔消息正文过早结束（预期：2,250,236；收到：16,360）

我想从 S3 资源创建 Apache Spark DataFrame 我在 AWS 和 IBM S3 Clout 对象存储上尝试过都失败了 org apache spark util TaskCompletionListenerExcep
通过子类化 `io.TextIOWrapper` 来子类化文件 - 但它的构造函数有什么签名？

我正在尝试子类化io TextIOWrapper下列的这个帖子 https stackoverflow com a 23796737 974555 虽然我的目标不同以此开始注意动机 https stackoverflow com a
python 的 fcntl.flock 函数是否提供文件访问的线程级锁定？

Python 的 fcnt 模块提供了一种名为 flock 1 的方法来证明文件锁定其描述如下对文件执行锁定操作op 描述符 fd 文件对象提供 fileno 方法被接受为出色地请参阅 Unix 手册集群 2 了解详情在某些系统上
如何在 Pandas 数据框中用 NaN 替换一系列值？

我有一个巨大的数据框我应该如何用 NaN 替换一系列值 200 100 数据框您可以使用pd DataFrame mask https pandas pydata org pandas docs stable generated pan
升级后 pip 损坏

我做了 pip install U easyinstall 然后 pip install U pip 来升级我的 pip 但是当我尝试使用 pip 时我现在收到此错误 root d8fb98fc3a66 which pip usr lo
Python 中的 C 指针算术

我正在尝试将一个简单的 C 程序转换为 Python 但由于我对 C 和 Python 都一无所知这对我来说很困难我被 C 指针困住了有一个函数采用 unsigned long int 指针并将其值添加到 while 循环中的某些变量
在 pip 中为 Flask 应用程序构建 docker 映像失败

from alpine latest RUN apk add no cache python3 dev pip3 install upgrade pip WORKDIR backend COPY backend RUN pip no cac
将笔记本生成的 HTML 片段转换为 LaTeX 和 PDF

在我的笔记本里有时会有 from IPython display import display HTML display HTML h3 The s is important h3 question of the day 但当我后来将笔记本

随机推荐

MSBuild：包含自定义资源文件作为嵌入资源

我在构建时使用 MSBuild 动态生成资源文件但为了能够在运行时读取该资源文件我需要它成为嵌入式资源我到处都在研究如何在 a 中标记文件 csproj作为嵌入式资源我什至尝试过这一点但没有成功
json.net 特殊字符转义

对 JSON 有点陌生所以请原谅这个简单的问题但根据找到的特殊字符列表here http www w3schools com js js special characters asp and here https developer m
Qt-fy 现有枚举与 Qt 元数据一起使用

假设我有一个现有的enum X A B 并希望将其与 Qt 元数据一起使用例如QMetaObject QMetaEnum QMetaObject meta FsxSimConnectQtfier staticMetaObject for
高可靠性/可用性/安全性编码 - 我应该阅读哪些标准？

我听说汽车行业有一个叫做 MISRA C 的东西其他高可靠性可用性安全行业的相关标准是什么比如 Space Aircraft 银行金融汽车 Medical 国防军事 Adam 参观戈达德太空飞行中心及其编码标准 http so
使用“mysql_fetch_row”从数据库检索结果并使用 PHP 和 mysqli 插入数组？

我需要从几行检索数据然后将结果插入到枚举数组中这样我就可以使用 for 循环来回显它我有这个我已经连接到数据库 genres sql SELECT genreID FROM genres WHERE imdbID if stmt g
如何基于Web服务更改android中的语言

目前我正在开发我正在使用的 Android 项目English作为主要语言我在用着strings xml字符串常量文件现在我想根据网络服务动态更改语言该服务将根据用户选择在设置中创建我知道我们必须为每种语言创建单独的 s
如何最好地设计具有多个过滤器的 REST API？

作为一个个人编程项目我正在抓取我大学的课程目录并以 REST API 的形式提供数据我已成功抓取所有数据并将其存储在数据库中现在正在开发 API 课程可以根据许多标准进行过滤教师学院学分时间日期等在这种情况下提供 API
微风错误：非法构造 - 使用“或”组合检查

我遇到了这个微风错误非法构造使用或来组合检查在 Chrome 上加载实体的编辑页面时当我刷新页面时错误消息不再出现此错误在我的网站上随机不规则地发生我无法使用指定的场景重现它只是随机遇到它我在 Breeze 代码中看
Nuxt中间件无限重定向问题

您好我正在尝试在我的 Nuxt 3 应用程序中执行这个中间件我正在尝试遵循文档但收到无限重定向错误 export default defineNuxtRouteMiddleware to from gt const user id 1
python TypeError：“列表”对象不可调用错误

我是 python 新手我试图理解这里的一个基本错误我在下面的代码中收到 TypeError list object is not callable 错误有人可以解释一下我的代码有什么问题吗 graph a b c b a c c b
通过 AKS 群集中的负载均衡器访问服务

我配置了一个集群其中的服务及其相关的 Pod 容器全部部署到私有子网中其中一个 Pod 代表应用程序的 UI 我定义了一个具有公共 IP 的负载均衡器来提供对 UI 的访问至少这是我的意图当我在浏览器中输入包含负载均衡器 IP
Angular Js+ TypeScript：如何创建动态表

我是打字稿和角度的新手我已经使用打字稿和角度js实现了一个模块在其中我需要创建一个动态表它将获取演示文稿的类型并相应地附加到我的视图就像我之前在 C 中所做的那样我在下面给出了我的 c 代码 private void ShowCu
需要均匀分布的按钮行

我尝试使用 3 行和 4 列将所有按钮水平均匀地隔开但失败了垂直的就好下面是 3 种不同的按钮间隔尝试我的 3 行每行 1 种第一行拉伸图形这是不需要的第二行不拉伸但没有间距图形之间需要间距而第三行拉伸没有任何间距请帮我
使用 IoC 进行单元测试

如何使用 IoC 容器进行单元测试使用 IoC 管理大型解决方案 50 多个项目中的模拟是否有用有什么经验吗有哪些 C 库适合在单元测试中使用它一般来说单元测试不需要 DI 容器因为单元测试就是分离职责考虑一个使用构造函数注
Mongoose 在启动时调用 EnsureIndex，但不建议这样做。那么为什么它是默认的呢？

我无法理解一件事当我们读到猫鼬文档 http mongoosejs com docs guide html 当您的应用程序启动时 Mongoose 会自动调用ensureIndex对于架构中每个定义的索引虽然有利于开发但建议在生产中禁
获取 Windows 中本地计算机用户名列表

如何使用 C 获取 Windows 中本地计算机用户名列表 using System Management SelectQuery query new SelectQuery Win32 UserAccount ManagementObje
ggplot2直方图中每个方面的不同断点

一个 ggplot2 挑战的 latticist 需要帮助在直方图中请求变量每面中断的语法是什么 library ggplot2 d data frame x c rnorm 100 10 0 1 rnorm 100 20 0 1 par
基本教师登录的用例图

我正在创建一个非常基本的用例图来显示教师登录该登录包括一个忘记密码如果用户忘记密码和一个重置密码如果他们希望在登录后重置密码我的问题是以下用例图表创建尤其是包含和扩展这确实是非常基本的通常登录宁愿成为其他用例的先决条件而
通过 C# 和 SMO 检查并删除现有表

我正在尝试按名称查找 SQL 表如果存在则删除它这一切都需要使用 SMO 在 C 中完成更复杂的是该表还有一个 dbo 以外的模式最终该表将通过 SMO 创建我可以正常工作但我必须确保它不存在然后才能重新创建它我看到的所有
如何尽可能高效地将存储在 RDD 列中的多个 json 表“缩减”为单个 RDD 表

使用以下代码在数据帧中使用联合来并发访问附加行是否可以正常工作目前显示类型错误 from pyspark sql types import schema StructType StructField owreg StringType Tr

如何尽可能高效地将存储在 RDD 列中的多个 json 表“缩减”为单个 RDD 表

如何尽可能高效地将存储在 RDD 列中的多个 json 表“缩减”为单个 RDD 表 的相关文章

随机推荐

热门标签

如何尽可能高效地将存储在 RDD 列中的多个 json 表“缩减”为单个 RDD 表的相关文章