分区数量如何影响“wholeTextFiles”和“textFiles”？

2023-12-07

在spark中，我明白了如何使用wholeTextFiles and textFiles，但我不确定何时使用哪个。到目前为止我所知道的是：

当处理不按行分割的文件时，应该使用wholeTextFiles，否则使用textFiles.

我认为默认情况下，wholeTextFiles and textFiles分别按文件内容和行分区。但是，它们都允许您更改参数minPartitions.

那么，更改分区如何影响它们的处理方式？

例如，假设我有一个非常大的文件，有 100 行。将其处理为有什么区别wholeTextFiles有 100 个分区，并将其处理为textFile（逐行分区）使用默认分区 100。

这些有什么区别呢？

以供参考，wholeTextFiles uses WholeTextFileInputFormat这延伸了组合文件输入格式.

一些注释wholeTextFiles.

RDD 中的每条记录由wholeTextFiles具有文件名和文件的全部内容。这意味着文件（根本）不能被分割。
因为它延伸了CombineFileInputFormat，它会尝试将一组较小的文件合并到一个分区中。

如果一个目录中有两个小文件，则这两个文件可能最终会出现在一个分区中。如果我设置minPartitions=2，那么我可能会取回两个分区。

现在如果我要设置minPartitions=3，我仍然会拿回两个分区，因为合同wholeTextFilesRDD 中的每条记录都包含一个完整的文件。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

分区数量如何影响“wholeTextFiles”和“textFiles”？的相关文章

获得熊猫按群体连续几周的最长连续记录

目前我正在处理不同主题的每周数据但可能会有一些没有数据的长连续所以我想做的就是保留每个连续几周的最长连续id 我的数据如下所示 id week 1 8 1 15 1 60 1 61 1 62 2 10 2 11 2 12 2 13 2
del 在 Python 中什么时候有用？

我实在想不出为什么 Python 需要del关键字大多数语言似乎没有类似的关键字例如我们可以分配一个变量而不是删除一个变量None到它当从字典中删除时 del可以添加方法有理由保留吗del在Python中还是Python前垃圾
Python 解码 JSON 中的嵌套 JSON

我正在处理一个 API 不幸的是它返回了格式错误或奇怪的格式而是感谢 fjarri JSON 但从积极的一面来看我认为这可能是我学习一些有关递归以及JSON 这是我用来记录锻炼的应用程序我正在尝试制作备份脚本我可以很好地收到
Python生成随机数时出现属性错误

我早些时候就同一段代码提出了类似的问题但我再次发现自己陷入困境特别是生成包含两个字母两个数字然后两个字母的车牌我希望这个问题不是重复的但在这种情况下我非常不知道该怎么做这是到目前为止的代码我希望你能找出我哪里出错了 fro
Python XLWT调整列宽

XLWT 的易用性给我留下了深刻的印象但有一件事我还没有弄清楚该怎么做我正在尝试将某些行调整为显示所有字符所需的最小宽度换句话说如果双击单元格之间的分隔线 excel 会做什么我知道如何将列宽调整为预定量但我不确定如何确定显示所
Python + Selenium：驱动程序路径

是否有可能在不输入路径的情况下运行 Python Selenium 脚本exePython 行中每个脚本中的文件 driver webdriver Chrome 同样的问题也适用于 IE 驱动程序 Edge 驱动程序和 Gecko 驱动程
在ubuntu中安装pyinterval

我正在尝试安装 python 库 pyinterval 它需要 crlibm C 标头我已安装该标头没有错误但似乎是问题的根源当我跑步时 sudo easy install pyinterval 我得到以下信息 Searching
AMLS 实验运行停留在“正在运行”状态

我运行了 Azure 机器学习服务实验并使用 Jupyter Notebook 记录了神经网络损失日志记录工作正常神经网络训练也按预期完成但实验一直停留在运行状态关闭计算资源不会关闭实验运行我无法从实验面板取消它此外运行没有
对训练和测试数据帧使用相同的标签编码器

我有 2 个不同的 csv 其中包含训练数据和测试数据我从这些 train features df 和 test features df 创建了两个不同的数据帧请注意测试和训练数据有多个分类列因此我需要对它们应用 labelEnco
在 SQLAlchemy 中删除父级后删除子级

我的问题如下我有两个型号Entry and Tag通过 SQLAlchemy 中的多对多关系链接现在我想删除所有Tag没有任何对应的Entry后Entry被删除示例来说明我想要的内容 Entry 1带标签python java Ent
python中matlab find函数的替换

我正在尝试寻找合适的python函数来替代matlabfind在我的脚本和一些谷歌搜索中我看到np where 大多数时候都能解决目的但在双重条件的情况下我有不同的输出有人可以告诉我这种方法有什么问题以及如何继续吗示例代码和差异如下
如何使用 Python 从 URL 中删除查询字符串

Example http example com a text q2 text2 q3 text3 q2 text4 删除后 q2 它将返回 http example com q text q3 text3 在这种情况下出现了多个 q2
使用 Cython 扩展模块分发共享库和一些 C 代码

我正在尝试从大型 C 共享库 libbig so 中获取一些函数并通过 Cython 将它们公开给 Python 为此我有一个小 C 文件 small cpp 它为我需要的共享库的功能提供了一个薄包装器从而可以轻松地通过 Cython
无法通过蓝牙读取心率服务

我希望创建一个简单的 python 脚本通过蓝牙从 Polar 传感器读取心率数据我已经阅读了很多其他帖子但找不到我能够成功执行的简单内容我有 Polar 可穿戴设备的设备 MAC 地址我知道我想要读取的值的服务 UUID HR
是否可以通过 Python 使用 Cocoa API？

我想知道是否可以将 Cocoa Apple 的 API 与 Python 一起使用以便能够运行像这样的任何代码link https developer apple com documentation appkit nsworkspace
二进制补码扩展 python？

我想知道是否有一种方法可以像在 Python 中的 C C 中一样使用标准库最好在位数组上进行二进制补码符号扩展 C C Example program include
pandas 数据帧和聚合中的行明智排序

我在 pandas dataframe df 中有一个表 col1 col2 count 12 15 3 13 17 5 1 36 4 15 12 7 36 1 4 等等我想要的是将 12 和 15 和 15 和 12 等计算值视为相同
Python：正则表达式 findall

我使用 python 正则表达式从给定字符串中提取某些值这是我的字符串 mystring txt sometext somemore text here some other text course course1 Id Name mar
命名空间与常规包

命名空间 Python 包之间有什么区别没有 init py 和一个常规的Python包有一个 init py 特别是当 init py普通包裹是空的吗我很好奇因为最近我忘记了 init py在我制作的包中我从未注意到任何问题事
Dash ImportError：无法从“werkzeug.debug.tbtools”导入名称“get_current_traceback”

我正在尝试在 Pycharm 的 conda 环境中运行一个简单的破折号应用程序但是我遇到了标题中的错误奇怪的是我在互联网上找不到提到这个错误的地方除了here https community plotly com t dash w

随机推荐

删除旧的 git 提交

我对 git 很陌生想知道这样的事情是否可能 gt git log pretty oneline abbrev commit 2f05aba Added new feature 3371cec Fixed screw up lt I wa
类具有不受支持的主要或次要版本号

在 Eclipse 中我创建了一个链接到 ejb 和模型的 EAR 项目我运行 EAR 并收到以下错误无法部署earkmz 部署失败部署期间发生错误部署应用程序时出现异常 earkmz UnsupportedClassVersio
WordPress 排队脚本和样式

我使用开源 WordPress 主题想要从 header php 文件中删除样式和脚本并正确编写它们我已将以下代码添加到我的functions php 文件中但没有任何反应 function smarter scripts wp en
完整加权网络中的社区检测

我确实有一个完整的网络图其中每个顶点都相互连接它们仅在不同权重的形式上有所不同一个示例网络是一个贸易网络其中每个国家都以某种方式相互连接只是贸易量的形式不同现在的问题是我如何以这种形式的网络执行社区检测通常的嫌疑人算法只
iPhone 设备之间的蓝牙信号强度

我有两个通过蓝牙连接的 iPhone 设备是否可以获得这些设备之间的信号强度如果可以的话如何谢谢凯德查看通过蓝牙将数据从一台设备传输到另一台设备的 Apple 示例项目 BTLE 苹果示例代码您可以通过 RSSI 接收信号强度
警告：遇到非数字值

最近更新到 PHP 7 1 并开始出现以下错误警告第 29 行遇到非数字值这是第 29 行的样子 sub total item quantity product price 在本地主机上一切正常有什么想法如何解决这个问题或者它是什么
Android Google Maps API v2：获取我的方位位置

我想强制相机的行为就像您正在使用导航一样这意味着当您向左旋转 90 时相机会执行相同的操作我有一个谷歌地图其中显示了我的位置作为蓝点 mGoogleMap setMyLocationEnabled true 当我移动时蓝点带有箭
使用信号进行进程同步是如何工作的？

我最近完成了 Unix 环境中的高级编程第 3 版的第 10 节信号我遇到了一段我不完全理解的代码 include apue h static volatile sig atomic t sigflag set nonzero by
用于 url 验证和部分捕获的正则表达式

是否可以使用单个正则表达式来验证网址并匹配所有部分我一直在研究一个正则表达式到目前为止我想到的是 P
PostgreSQL IN() 子句中的 ORDER BY 值

好的有一些关于如何执行此操作的答案但所有答案都假设查询选择全部如果您有不同的选择这些方法将不再起作用请参阅此处了解该方法在 Postgresql 中模拟 MySQL 的 ORDER BY FIELD 基本上我有 SELECT D
React.js 应用程序显示 404 未在 nginx 服务器中找到

我将react js应用程序上传到服务器我正在使用 nginx 服务器应用程序运行良好但是当我转到另一个页面并刷新时该网站无法正常工作它显示 404 未找到错误我该如何解决这个问题当你的react js应用程序加载时路由由前
PostgreSQL：在 PostgreSQL 中同时修改所有表的 OWNER

如何修改 PostgreSQL 数据库中所有表的所有者 I tried ALTER TABLE OWNER TO new owner但它不支持星号语法您可以使用REASSIGN OWNED命令概要 REASSIGN OWNED BY o
如何创建自定义 WPF 设置向导

我已经构建了我的第一个 wpf 应用程序没什么花哨的但我想通过添加一个设置让它看起来很酷我在互联网上研究了一些免费的实用程序来做到这一点但由于它是一个 wpf 应用程序我希望设置能够进行沿着这些思路知道如何创建自定义 wpf 设
使用代码分发 git 配置

在尝试为开发人员标准化平台时我的需求之一是承诺 git config这样每个人都有相同的 CRLF 配置而不会忘记手动设置它我该如何设置我对所有这些负面影响感到有点担心autocrlf 如果这个功能不起作用为什么不删除它呢这个功
为什么尝试通过序列化为 JSON 来打印对象时缺少一些成员？

如何在C 中打印任意变量以打印所有成员我用相同的技术找到了三个答案 https stackoverflow com a 26181763 2125837这建议在其他答案中使用 Json NET 进行序列化并且 https tech io
如何附加数据库？

当我想附加数据库时出现错误无法打开数据库 Almizan 因为它是版本 661 此服务器支持版本 655 及更早版本不支持降级路径无法打开新数据库 Almizan 创建数据库被中止 Net SqlClient 数据提供程序帮我附加
如何解决“APK META-INF/* 中复制的重复文件”问题

我正在开发一个商业 Android 应用程序我还使用一些根据不同许可证类型获得许可的库其中一些库声明如下如果图书馆有带有归属说明的通知文件则在分发时必须包含该通知其中之一已获得许可阿帕奇许可证 2 0例如有不止一个图书馆当
使用包罗万象的通配符重定向到控制器（但使用不同的主控制器）

我有一个问题我想根据它的来源以不同的方式显示视图不同的母版页但不知道从哪里开始我有几条路线可以捕获包含不同结构的各种不同类型的网址在下面的代码片段中我有一个产品路线然后有一个合作伙伴网站路线它也可以转到产品页面但假设这个合
Rails Active Storage 并非每次都工作。有时有效，有时无效

我正在使用 Active Storage 来存储比赛得分图像我的班级看起来像这样 class TournamentMatch lt ApplicationRecords has many attached score cards end
分区数量如何影响“wholeTextFiles”和“textFiles”？

在spark中我明白了如何使用wholeTextFiles and textFiles 但我不确定何时使用哪个到目前为止我所知道的是当处理不按行分割的文件时应该使用wholeTextFiles 否则使用textFiles 我认为默认

分区数量如何影响“wholeTextFiles”和“textFiles”？

分区数量如何影响“wholeTextFiles”和“textFiles”？ 的相关文章

随机推荐

热门标签

分区数量如何影响“wholeTextFiles”和“textFiles”？的相关文章