分区数量如何影响“wholeTextFiles”和“textFiles”?

2023-12-07

在spark中,我明白了如何使用wholeTextFiles and textFiles,但我不确定何时使用哪个。到目前为止我所知道的是:

  • 当处理不按行分割的文件时,应该使用wholeTextFiles,否则使用textFiles.

我认为默认情况下,wholeTextFiles and textFiles分别按文件内容和行分区。但是,它们都允许您更改参数minPartitions.

那么,更改分区如何影响它们的处理方式?

例如,假设我有一个非常大的文件,有 100 行。将其处理为有什么区别wholeTextFiles有 100 个分区,并将其处理为textFile(逐行分区)使用默认分区 100。

这些有什么区别呢?


以供参考,wholeTextFiles uses WholeTextFileInputFormat这延伸了组合文件输入格式.

一些注释wholeTextFiles.

  • RDD 中的每条记录由wholeTextFiles具有文件名和文件的全部内容。这意味着文件(根本)不能被分割。
  • 因为它延伸了CombineFileInputFormat,它会尝试将一组较小的文件合并到一个分区中。

如果一个目录中有两个小文件,则这两个文件可能最终会出现在一个分区中。如果我设置minPartitions=2,那么我可能会取回两个分区。

现在如果我要设置minPartitions=3,我仍然会拿回两个分区,因为合同wholeTextFilesRDD 中的每条记录都包含一个完整的文件。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

分区数量如何影响“wholeTextFiles”和“textFiles”? 的相关文章

  • 获得熊猫按群体连续几周的最长连续记录

    目前我正在处理不同主题的每周数据 但可能会有一些没有数据的长连续 所以 我想做的就是保留每个连续几周的最长连续id 我的数据如下所示 id week 1 8 1 15 1 60 1 61 1 62 2 10 2 11 2 12 2 13 2
  • del 在 Python 中什么时候有用?

    我实在想不出为什么 Python 需要del关键字 大多数语言似乎没有类似的关键字 例如 我们可以分配一个变量 而不是删除一个变量None到它 当从字典中删除时 del可以添加方法 有理由保留吗del在Python中 还是Python前垃圾
  • Python 解码 JSON 中的嵌套 JSON

    我正在处理一个 API 不幸的是它返回了格式错误 或 奇怪的格式 而是 感谢 fjarri JSON 但从积极的一面来看 我认为这可能是我学习一些有关递归以及JSON 这是我用来记录锻炼的应用程序 我正在尝试制作备份脚本 我可以很好地收到
  • Python生成随机数时出现属性错误

    我早些时候就同一段代码提出了类似的问题 但我再次发现自己陷入困境 特别是生成包含两个字母 两个数字 然后两个字母的车牌 我希望这个问题不是重复的 但在这种情况下 我非常不知道该怎么做 这是到目前为止的代码 我希望你能找出我哪里出错了 fro
  • Python XLWT调整列宽

    XLWT 的易用性给我留下了深刻的印象 但有一件事我还没有弄清楚该怎么做 我正在尝试将某些行调整为显示所有字符所需的最小宽度 换句话说 如果双击单元格之间的分隔线 excel 会做什么 我知道如何将列宽调整为预定量 但我不确定如何确定显示所
  • Python + Selenium:驱动程序路径

    是否有可能在不输入路径的情况下运行 Python Selenium 脚本exePython 行中每个脚本中的文件 driver webdriver Chrome 同样的问题也适用于 IE 驱动程序 Edge 驱动程序 和 Gecko 驱动程
  • 在ubuntu中安装pyinterval

    我正在尝试安装 python 库 pyinterval 它需要 crlibm C 标头 我已安装该标头 没有错误 但似乎是问题的根源 当我跑步时 sudo easy install pyinterval 我得到以下信息 Searching
  • AMLS 实验运行停留在“正在运行”状态

    我运行了 Azure 机器学习服务实验 并使用 Jupyter Notebook 记录了神经网络损失 日志记录工作正常 神经网络训练也按预期完成 但实验一直停留在运行状态 关闭计算资源不会关闭实验运行 我无法从实验面板取消它 此外 运行没有
  • 对训练和测试数据帧使用相同的标签编码器

    我有 2 个不同的 csv 其中包含训练数据和测试数据 我从这些 train features df 和 test features df 创建了两个不同的数据帧 请注意 测试和训练数据有多个分类列 因此我需要对它们应用 labelEnco
  • 在 SQLAlchemy 中删除父级后删除子级

    我的问题如下 我有两个型号Entry and Tag通过 SQLAlchemy 中的多对多关系链接 现在我想删除所有Tag没有任何对应的Entry后Entry被删除 示例来说明我想要的内容 Entry 1带标签python java Ent
  • python中matlab find函数的替换

    我正在尝试寻找合适的python函数来替代matlabfind在我的脚本和一些谷歌搜索中我看到np where 大多数时候都能解决目的 但在双重条件的情况下 我有不同的输出 有人可以告诉我这种方法有什么问题以及如何继续吗 示例代码和差异如下
  • 如何使用 Python 从 URL 中删除查询字符串

    Example http example com a text q2 text2 q3 text3 q2 text4 删除后 q2 它将返回 http example com q text q3 text3 在这种情况下 出现了多个 q2
  • 使用 Cython 扩展模块分发共享库和一些 C 代码

    我正在尝试从大型 C 共享库 libbig so 中获取一些函数 并通过 Cython 将它们公开给 Python 为此 我有一个小 C 文件 small cpp 它为我需要的共享库的功能提供了一个薄包装器 从而可以轻松地通过 Cython
  • 无法通过蓝牙读取心率服务

    我希望创建一个简单的 python 脚本 通过蓝牙从 Polar 传感器读取心率数据 我已经阅读了很多其他帖子 但找不到我能够成功执行的简单内容 我有 Polar 可穿戴设备的设备 MAC 地址 我知道我想要读取的值的服务 UUID HR
  • 是否可以通过 Python 使用 Cocoa API?

    我想知道是否可以将 Cocoa Apple 的 API 与 Python 一起使用 以便能够运行像这样的任何代码link https developer apple com documentation appkit nsworkspace
  • 二进制补码扩展 python?

    我想知道是否有一种方法可以像在 Python 中的 C C 中一样使用标准库 最好在位数组上 进行二进制补码符号扩展 C C Example program include
  • pandas 数据帧和聚合中的行明智排序

    我在 pandas dataframe df 中有一个表 col1 col2 count 12 15 3 13 17 5 1 36 4 15 12 7 36 1 4 等等 我想要的是将 12 和 15 和 15 和 12 等计算值视为相同
  • Python:正则表达式 findall

    我使用 python 正则表达式从给定字符串中提取某些值 这是我的字符串 mystring txt sometext somemore text here some other text course course1 Id Name mar
  • 命名空间与常规包

    命名空间 Python 包之间有什么区别 没有 init py 和一个常规的Python包 有一个 init py 特别是当 init py普通包裹是空的吗 我很好奇 因为最近我忘记了 init py在我制作的包中 我从未注意到任何问题 事
  • Dash ImportError:无法从“werkzeug.debug.tbtools”导入名称“get_current_traceback”

    我正在尝试在 Pycharm 的 conda 环境中运行一个简单的破折号应用程序 但是我遇到了标题中的错误 奇怪的是 我在互联网上找不到提到这个错误的地方 除了here https community plotly com t dash w

随机推荐

  • 删除旧的 git 提交

    我对 git 很陌生 想知道这样的事情是否可能 gt git log pretty oneline abbrev commit 2f05aba Added new feature 3371cec Fixed screw up lt I wa
  • 类具有不受支持的主要或次要版本号

    在 Eclipse 中 我创建了一个链接到 ejb 和模型的 EAR 项目 我运行 EAR 并收到以下错误 无法部署earkmz 部署失败 部署期间发生错误 部署应用程序时出现异常 earkmz UnsupportedClassVersio
  • WordPress 排队脚本和样式

    我使用开源 WordPress 主题 想要从 header php 文件中删除样式和脚本并正确编写它们 我已将以下代码添加到我的functions php 文件中 但没有任何反应 function smarter scripts wp en
  • 完整加权网络中的社区检测

    我确实有一个完整的网络图 其中每个顶点都相互连接 它们仅在不同权重的形式上有所不同 一个示例网络是 一个贸易网络 其中每个国家都以某种方式相互连接 只是贸易量的形式不同 现在的问题是我如何以这种形式的网络执行社区检测 通常的嫌疑人 算法 只
  • iPhone 设备之间的蓝牙信号强度

    我有两个通过蓝牙连接的 iPhone 设备 是否可以获得这些设备之间的信号强度 如果可以的话 如何 谢谢 凯德 查看通过蓝牙将数据从一台设备传输到另一台设备的 Apple 示例项目 BTLE 苹果示例代码 您可以通过 RSSI 接收信号强度
  • 警告:遇到非数字值

    最近更新到 PHP 7 1 并开始出现以下错误 警告 第 29 行遇到非数字值 这是第 29 行的样子 sub total item quantity product price 在本地主机上一切正常 有什么想法如何解决这个问题或者它是什么
  • Android Google Maps API v2:获取我的方位位置

    我想强制相机的行为就像您正在使用导航一样 这意味着当您向左旋转 90 时 相机会执行相同的操作 我有一个谷歌地图 其中显示了我的位置 作为蓝点 mGoogleMap setMyLocationEnabled true 当我移动时 蓝点带有箭
  • 使用信号进行进程同步是如何工作的?

    我最近完成了 Unix 环境中的高级编程 第 3 版 的第 10 节 信号 我遇到了一段我不完全理解的代码 include apue h static volatile sig atomic t sigflag set nonzero by
  • 用于 url 验证和部分捕获的正则表达式

    是否可以使用单个正则表达式来验证网址并匹配所有部分 我一直在研究一个正则表达式 到目前为止我想到的是 P
  • PostgreSQL IN() 子句中的 ORDER BY 值

    好的 有一些关于如何执行此操作的答案 但所有答案都假设查询选择全部 如果您有不同的选择 这些方法将不再起作用 请参阅此处了解该方法 在 Postgresql 中模拟 MySQL 的 ORDER BY FIELD 基本上我有 SELECT D
  • React.js 应用程序显示 404 未在 nginx 服务器中找到

    我将react js应用程序上传到服务器 我正在使用 nginx 服务器 应用程序运行良好 但是当我转到另一个页面并刷新时 该网站无法正常工作 它显示 404 未找到错误 我该如何解决这个问题 当你的react js应用程序加载时 路由由前
  • PostgreSQL:在 PostgreSQL 中同时修改所有表的 OWNER

    如何修改 PostgreSQL 数据库中所有表的所有者 I tried ALTER TABLE OWNER TO new owner但它不支持星号语法 您可以使用REASSIGN OWNED命令 概要 REASSIGN OWNED BY o
  • 如何创建自定义 WPF 设置向导

    我已经构建了我的第一个 wpf 应用程序 没什么花哨的 但我想通过添加一个设置让它看起来很酷 我在互联网上研究了一些免费的实用程序来做到这一点 但由于它是一个 wpf 应用程序 我希望设置能够进行沿着这些思路 知道如何创建自定义 wpf 设
  • 使用代码分发 git 配置

    在尝试为开发人员标准化平台时 我的需求之一是承诺 git config这样每个人都有相同的 CRLF 配置 而不会忘记手动设置它 我该如何设置 我对所有这些负面影响感到有点担心autocrlf 如果这个功能不起作用 为什么不删除它呢 这个功
  • 为什么尝试通过序列化为 JSON 来打印对象时缺少一些成员?

    如何在C 中打印任意变量以打印所有成员 我用相同的技术找到了三个答案 https stackoverflow com a 26181763 2125837这建议在其他答案中使用 Json NET 进行序列化 并且 https tech io
  • 如何附加数据库?

    当我想附加数据库时 出现错误 无法打开数据库 Almizan 因为它是版本 661 此服务器支持版本 655 及更早版本 不支持降级路径 无法打开新数据库 Almizan 创建数据库被中止 Net SqlClient 数据提供程序 帮我附加
  • 如何解决“APK META-INF/* 中复制的重复文件”问题

    我正在开发一个商业 Android 应用程序 我还使用一些根据不同许可证类型获得许可的库 其中一些库声明如下 如果图书馆有带有归属说明的 通知 文件 则在分发时必须包含该通知 其中之一已获得许可阿帕奇许可证 2 0例如 有不止一个图书馆 当
  • 使用包罗万象的通配符重定向到控制器(但使用不同的主控制器)

    我有一个问题 我想根据它的来源以不同的方式显示视图 不同的母版页 但不知道从哪里开始 我有几条路线可以捕获包含不同结构的各种不同类型的网址 在下面的代码片段中 我有一个产品路线 然后有一个合作伙伴网站路线 它也可以转到产品页面 但假设这个合
  • Rails Active Storage 并非每次都工作。有时有效,有时无效

    我正在使用 Active Storage 来存储比赛得分图像 我的班级看起来像这样 class TournamentMatch lt ApplicationRecords has many attached score cards end
  • 分区数量如何影响“wholeTextFiles”和“textFiles”?

    在spark中 我明白了如何使用wholeTextFiles and textFiles 但我不确定何时使用哪个 到目前为止我所知道的是 当处理不按行分割的文件时 应该使用wholeTextFiles 否则使用textFiles 我认为默认