如何将pyspark数据帧写入HDFS，然后如何将其读回数据帧？

2023-12-26

我有一个非常大的 pyspark 数据框。所以我想对其子集进行预处理，然后将它们存储到hdfs。后来我想把它们全部读完并合并在一起。谢谢。

将 DataFrame 写入 HDFS (Spark 1.6)。

df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.

一些格式选项是csv, parquet, json etc.

从 HDFS 读取 DataFrame (Spark 1.6)。

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
sqlContext.read.format('parquet').load('/path/to/file')

format 方法接受参数，例如parquet, csv, json etc.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Hadoop

PySpark

HDFS

apachesparksql

如何将pyspark数据帧写入HDFS，然后如何将其读回数据帧？的相关文章

Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
如何正确地将 MIDI 刻度转换为毫秒？

我正在尝试将 MIDI 刻度增量时间转换为毫秒并且已经找到了一些有用的资源 MIDI Delta 时间刻度到秒 http www lastrayofhope co uk 2009 12 23 midi delta time ticks
pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
Python逻辑运算符优先级[重复]

这个问题在这里已经有答案了哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
使用 PyArrow 从 HDFS 读取镶木地板文件

我知道我可以使用 pyarrow 连接到 HDFS 集群pyarrow hdfs connect 我也知道我可以使用读取镶木地板文件pyarrow parquet s read table 然而 read table 接受文件路径而hdf
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

参数和NULL

我在使用 RPostgres 和 RPostgreSQL 将 NULL 作为 INSERT 参数查询传递时遇到问题在 PostgreSQL 中 create table foo ival int tval text bval bytea
Angular：strictTemplates - 如何正确分配变量

我在我的Sample html某处定义的
mysql innodb 事务并发

我有3张桌子 Products 产品编号最大可销售产品数可以销售给个人的最大产品数购买 user id产品编号数量预订产品编号 user id数量希望你能理解这个结构现在当用户尝试购买产品时我必须检查 max products
防止 QDockWidget 自动调整大小行为

Qt 5 5 0 在我的应用程序中我有一个 QGraphicsView 作为主要小部件和一个 QDockWidget 作为属性目标是让用户在图形视图中选择一个项目并根据该项目显示该项目的适当属性我通过使用属性管理器小部件来实现此目的
Gunicorn 工人创建僵尸进程

这不是一个真正的问题但我确实想了解发生了什么以及为什么会创建这些僵尸进程还想看看是否有针对这种事情的好的做法现在我做kill HUP在主 Gunicorn 进程上它会摆脱僵尸进程我会自动kill HUP每天早上进行日志轮换我想
Excel 求解器忽略 VBA 中的约束

我正在尝试使用求解器找到简单投资组合的最大回报在工作表中直接使用 Solver 可以正常工作但在 VBA 中设置命令时则不然相反正如您从屏幕截图中看到的它忽略了其中一个约束 T10 中计算的权重总和应 1 有趣的是如果我将第三行
cx_Freeze 帮助：有没有办法不打开控制台？

我正在尝试将 python 游戏用 pygame 制作转换为 Windows 的 exe 文件我使用 cx Freeze 进行了操作那里没有问题问题是当我启动 myGame exe 时它会打开正常的 Pygame 窗口和控制
如何清空 BlockingCollection

我有一个线程将项目添加到BlockingCollection 在我正在使用的另一个线程上foreach var item in myCollection GetConsumingEnumerable 如果出现问题我想打破我的 foreac
Vimscript：列出的缓冲区数量

在我的 vim 脚本中我需要获取所有被视为列出可列出的缓冲区的计数即所有执行此操作的缓冲区 not具有未列出的 u 属性推导该值的推荐方法是什么你可以使用bufnr 获取最后一个缓冲区的编号然后创建一个列出从 1 到该数字并过
使用指针嵌套 std::map

我在地图内使用地图并希望访问第二个地图中的特定成员 std map
在Web Api中使用Postman授权属性认证

我正在使用 RESTful 服务并发现 Postman 是 GET POST 和测试 API 的最佳插件之一我在邮递员中找到基本身份验证无身份验证 DIgest Auth OAuth AWS 如何测试授权控制器和方法我知道授权属性检
为什么这个SQL语句很慢？

我有一个包含大约 100 万条记录的表运行 SQL Server 2008 Web 我有一个搜索例程尝试匹配产品代码和产品描述但在某些情况下速度非常慢下面是精简的 sql 语句 WITH AllProducts AS SELEC
当进行相同的 PDO 查询（参数不断变化）时，我是每次都调用prepare()，还是只调用一次？

我正在尝试学习如何使用 PDO 并且需要帮助理解一些内容我一直读到使用 PDO 的最大好处之一是它比mysql 当一遍又一遍地进行类似的查询时我需要进行一个完全相同的查询只是绑定参数每次都会改变但查询的结构是相同的所以这是我的问
如何覆盖 Riverpod StateNotifier 的状态以进行测试

我想覆盖我的StateNotifierProvider手动声明以进行测试可以使用以下方式覆盖提供者ProviderContainer or ProviderScope 但它只提供了覆盖通知者的选项而不是状态我的问题是我应该如何覆盖状态
Jquery图像叠加？

我希望使用 jquery 将右上角的图像覆盖在另一张图像上基本上当用户的鼠标悬停在图像上方时我希望第二个图像出现在右上角的另一张图像上方然后当用户停止悬停在图像上时消失我如何用 Jquery 实现这一点 Senad 是很正确的你
父进程如何通过调用_exit的子进程的wait来获取终止状态

我已阅读以下声明给 exit 的 status 参数定义了终止状态该进程当该进程的父进程可用时该进程可用调用 wait 进程总是由 exit 成功终止即出口一去不复返 Question If exit不返回父进程如何获取终
ASP.Net MVC jQuery AJAX 路由问题

我的页面是domain com home details 1 在我的 jQuery AJAX 调用中我有以下内容但是当它进行该调用时它会调用domain com home details home getdata 我该怎么做才能让它得
React Native：无法导入 csv 文件

我有一个csv文件位于 src data文件夹我希望导入它以便能够传递到帕帕帕斯库被解析为JSON图书馆这是我用来执行此操作的脚本 import Papa from papaparse import file from src data
Micronaut-Core：如何创建动态端点

简单的问题是否可以创建端点而无需 Endpoint 我想通过文件并根据其上下文的内容创建相当动态的端点 Thanks 更新一下我的想法我想创建类似插件系统的东西以使我的应用程序对于维护和未来功能更具可扩展性值得一提的是我正在使用
如何将pyspark数据帧写入HDFS，然后如何将其读回数据帧？

我有一个非常大的 pyspark 数据框所以我想对其子集进行预处理然后将它们存储到hdfs 后来我想把它们全部读完并合并在一起谢谢将 DataFrame 写入 HDFS Spark 1 6 df write save target

如何将pyspark数据帧写入HDFS，然后如何将其读回数据帧？

如何将pyspark数据帧写入HDFS，然后如何将其读回数据帧？ 的相关文章

随机推荐

热门标签

如何将pyspark数据帧写入HDFS，然后如何将其读回数据帧？的相关文章