Databricks - Pyspark 与 Pandas

2024-02-23

我有一个 python 脚本，其中使用 pandas 来转换/操作我的数据。我知道我有一些“低效”的代码块。我的问题是，如果 pyspark 应该更快，我可以使用 pyspark 而不是 pandas 替换这些块，还是我需要将所有内容都放在 pyspark 中？如果我在 Databricks 中，这到底有多重要，因为它已经在 Spark 集群上了？

如果数据足够小，您可以使用 pandas 来处理它，那么您可能不需要 pyspark。当您的数据量如此之大以至于无法装入一台机器的内存时，Spark 非常有用，因为它可以执行分布式计算。话虽这么说，如果计算足够复杂，可以从大量并行化中受益，那么您可以看到使用 pyspark 的效率提升。与 pandas 相比，我对 pyspark 的 API 更满意，所以无论如何我最终可能会使用 pyspark，但您是否会看到效率提升很大程度上取决于问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Databricks - Pyspark 与 Pandas 的相关文章

管理 Tweepy API 搜索

如果这是对之前在其他地方回答过的问题的粗略重复请原谅我但我不知道如何使用 tweepy API 搜索功能是否有任何有关如何使用搜索推文的文档api search 功能有什么方法可以控制返回的推文数量结果类型等功能由于某种原因结
HoughLinesP后如何合并线？

My task is to find coordinates of lines startX startY endX endY and rectangles 4 lines Here is input file 我使用下一个代码 img c
SQLAlchemy：检查给定值是否在列表中

问题在 PostgreSQL 中检查某个字段是否在给定列表中是使用IN操作员 SELECT FROM stars WHERE star type IN Nova Planet SQLAlchemy 的等价物是什么INSQL查询我尝试过
__getitem__、__setitem__ 如何处理切片？

我正在运行 Python 2 7 10 我需要拦截列表中的更改我所说的更改是指在浅层意义上修改列表的任何内容如果列表由相同顺序的相同对象组成则列表不会更改无论这些对象的状态如何否则它会更改我不需要找出来how列表已经改变
Microsoft Azure 数据仓库和 SqlAlchemy

我正在尝试使用 python 的 sqlalchemy 库连接到 microsoft azure 数据仓库并收到以下错误 pyodbc Error HY000 HY000 Microsoft ODBC SQL Server Driver
将查询参数添加到 URL

我正在尝试自动从网站下载数据我需要将动态参数传递到每天更改的站点 html 的结构是表格而不是表单如何传递参数并从 url 获取结果这是我尝试过的它需要在 python 2 7 中 import urllib url https d
如何将字符串方法应用于数据帧的多列

我有一个包含多个字符串列的数据框我想使用对数据帧的多列上的系列有效的字符串方法我希望这样的事情 df pd DataFrame A 123f 456f B 789f 901f df Out 15 A B 0 123f 789f 1 45
PyPI 上的轮子平台约束有什么限制吗？

是否有任何地方 PEP 或其他地方声明关于 Linux 轮子上传范围的限制 PyPI http pypi io 应该有具体来说上传是否被认为是可接受的做法linux x86 64轮子到 PyPI 而不是manylinux1 x86 6
如何在 Python 中将 EXR 文件的 float16 转换为 uint8

我正在使用 OpenEXR 读取 Python 中的 EXR 文件我有带有半数据 float16 的 R G 和 B 通道我尝试使用 Numpy 将数据从 float16 转换为 uint8 0 255 颜色但没有成功 rCh get
Spark s3 写入（s3 与 s3a 连接器）

我正在从事一项在 EMR 上运行的作业它在 s3 上保存了数千个分区分区为年月日我有过去 50 年的数据现在当 Spark 写入 10000 个分区时使用以下命令大约需要 1 小时s3a联系它非常慢 df repartit
如何将列表中的每个项目转换为字符串，以便连接它们？ [复制]

这个问题在这里已经有答案了我需要加入一个项目列表列表中的许多项目都是从函数返回的整数值 IE myList append munfunc 我应该如何将返回的结果转换为字符串以便将其加入列表我是否需要对每个整数值执行以下操作 myLis
Spark shuffle 溢出指标

在 Spark 2 3 集群上运行作业时我在 Spark WebUI 中注意到某些任务发生了溢出据我所知在reduce端 reducer获取所需的分区随机读取然后使用执行器的执行内存执行reduce计算由于没有足够的执行内存一
Docker Build 找不到 pip

尝试关注一些 1 https aws amazon com blogs aws run docker apps locally using the elastic beanstalk eb cli 2 http docs aws amazo
与 GNU Make 等 Python 相关的并行任务并发

我正在寻找一种方法或者可能是一种哲学方法来如何在 python 中执行类似 GNU Make 的操作目前我们使用 makefile 来执行处理因为 makefile 非常擅长通过更改单个选项 j x 进行并行运行此外 gnu mak
在Python中将罗马数字转换为整数

根据 user2486 所说这是我当前的代码 def romanMap map M 1000 CM 900 D 500 CD 400 C 100 XC 90 L 50 XL 40 X 10 IX 9 V 5 V 4 I 1 return
Java 相当于 Python 的 urllib.urlencode（基于 HashMap 的 UrlEncode）

From https stackoverflow com questions 2018026 should i use urllib or urllib2 2018103 2018103 Java 中 Python 的 urllib url
在Python中打开网站框架或图像

所以我对 python 相当熟练并且经常使用 urllib2 和 Cookies 来实现网站自动化我刚刚偶然发现了 webbrowser 模块它可以在默认浏览器中打开一个网址我想知道是否可以从该 url 中仅选择一个对象并打开它具
需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本

我对 python 很陌生但我很感激您帮助指导我创建一个简单的脚本该脚本读取一堆 yaml 文件同一目录中的大约 300 个文件并从 yaml 文件并将其转换为 csv yaml 文件中内容的示例 code 9313 degrees
Python模糊字符串匹配作为相关样式表/矩阵

我有一个文件其中包含 x 个字符串名称及其关联的 ID 本质上是两列数据我想要的是一个格式为 x by x 的相关样式表将相关数据作为 x 轴和 y 轴但我想要 fuzzywuzzy 库的函数 fuzz ratio x y 作为输出
使用 Python 进行 Google 搜索网页抓取 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案最近为了工作中的一些项目学习了很多python 目前我需要使用谷歌搜索结果进行一些网络抓取我发现几

随机推荐

如何栅格化球体

所以我试图创建一个外部有块的球体有点像在 Minecraft 中构建的我不知道圆的外部的术语是什么问题是我不知道如何让像中点圆算法这样的方程适用于球体最好是在 lua 或 java 中这样我可以更轻松地阅读任何答案我不想
@with_kw 在 Julia 中做什么？

我正在阅读一些代码如下所示 with kw struct HyperParams batch size Int 128 latent dim Int 100 epochs Int 25 verbose freq Int 1000 outp
TypeError：在 Xubuntu 14.04.5 上尝试 Selenium 时，urlopen() 获得了关键字参数“body”的多个值

环境 lsb release a No LSB modules are available Distributor ID Ubuntu Description Ubuntu 14 04 5 LTS Release 14 04 Codenam
java中可以将字符串转换为数学运算吗？

我可以将像 3 3 3 这样的字符串转换为java中的数学运算吗使用 JavaScript 来评估它脚本引擎 http docs oracle com javase 6 docs api javax script ScriptEngine
AWS Lex Python Codehook 参考

我对 Python 和编码还很陌生但我正在尝试使用 Lambda 函数构建自己的 Lex 机器人我一直在关注教程我可以理解它是如何工作的问题是当我尝试为 Lex 编写自己的 Lambda 函数时我找不到任何参考来帮助我编写代码
将带逗号的字符串转换为数组

如何将字符串转换为 JavaScript 数组看代码 var string 0 1 var array string alert array 0 在这种情况下alert shows 0 1 如果它是一个数组它会显示0 而如果alert
使用 .net SDK 从 Amazon S3 存储桶下载文件夹

如何使用 net sdk 下载 s3 存储桶中存在的整个文件夹尝试使用以下代码它会抛出无效密钥我需要下载存储桶中存在的嵌套 pesudo 文件夹中存在的所有文件并将文件下载限制删除为默认值 1000 public static vo
如何在Retrofit-2.0+ android中设置超时

我提到这个链接 https stackoverflow com a 29380845 1083093但我似乎无法实现我的我在用 compile com squareup retrofit2 retrofit 2 0 2 compile c
将 Drupal 用户帐户导入 Rails，无需用户更改密码

我想将一系列 Drupal 用户帐户导入到new铁轨项目我正在使用 Devise 在 Rails 中进行用户身份验证我希望能够将加密密码从 Drupal 导入到 Rails 中以便用户在网站迁移时获得无缝体验关于如何做到这一点有什么
为什么 git revert 在这些情况下表现不同？

假设我有ProjectA and ProjectB其中我只有一个名为test txt在这两个项目中并使用 git 跟踪它第一次提交后两个项目中的文件内容如下所示 one two three four 第二次提交后两个项目中的文件内容如
dompdf：A4页面上的白边距

我正在使用 dompdf 一个 PHP 库创建 PDF 页面但在设置正确的尺寸时遇到问题当我使用 CSS 属性时 page size 21cm 29 7cm 例如我想要页面的上半部分为红色 PDF 文件没问题但打印后我得到了白色边
如果我更改操作系统时区，事件（作为 json feed）、开始结束参数 unix 时间戳会有所不同

我正在使用 fullcalendar 插件如果有人可以帮助我我将不胜感激我通过 PHP URL 获取 json 事件像这样的东西 calendar fullCalendar events myfeed php 因此在返回事件的 p
Springboard 无法启动应用程序，错误为 3、0、4 等

为什么 Xcode 无法在模拟器中启动应用程序我在网上浏览了很多解决方案但有时有效有时无效很多时候我解决问题的方法就是退出模拟器删除应用程序重置模拟器的内容设置并清理和构建但为什么我每次都要尝试其中的任何一个所有呢 Xc
从命令行启动 Beyond Compare

我已安装 Beyond Compare 3 C Program Files Beyond Compare 3 BCompare exe 和西格温 C Cygwin bin bash exe 我想要的是能够使用诸如以下的命令 diff
核心图形和 GIF 颜色表

我试图限制动画 GIF 的颜色数量由一系列CGImageRef 但是我在实际设置自定义颜色表时遇到困难有谁知道如何使用核心显卡来做到这一点我知道kCGImagePropertyGIFImageColorMap 下面是一些测试代码大
如何使用 $util.error 在 AppSync 中发送自定义错误

我对 AppSync 错误处理有疑问我想发送errorInfo对象以及错误响应我尝试过 util error 根据文件 https docs aws amazon com appsync latest devguide resolver
如何更改 Rails 中的 URL

我有一个名为 Book 的资源然后我有如下域 domain com books 272 但我想把它改成 domain com stories 272 仅针对 URL 不需要更改控制器类等在我有的路线中 map connect cont
如何在JSP页面中包含angular2/4组件？

我想在JSP页面中添加角度组件有哪些可能的方法描述更多我在 JSP 中有一个应用程序动态 Web 应用程序我创建的另一个应用程序是一个执行一些身份验证的角度组件除了 object embedd 或 iframe 之外还有其他方法
使用共享库时的 Yarn 工作区最佳实践

我有一个常见或不太常见的场景yarn workspaces并且在网上没有找到适合我的指南纱线工作区看起来像这样 monorepo packages client admin theme lib Client用作我们的最终用户它是一个
Databricks - Pyspark 与 Pandas

我有一个 python 脚本其中使用 pandas 来转换操作我的数据我知道我有一些低效的代码块我的问题是如果 pyspark 应该更快我可以使用 pyspark 而不是 pandas 替换这些块还是我需要将所有内容都放在

Databricks - Pyspark 与 Pandas

Databricks - Pyspark 与 Pandas 的相关文章

随机推荐

热门标签