如何在 Apache Spark 中分割输入文件

2024-01-06

假设我有一个大小为 100MB 的输入文件。它包含大量 CSV 格式的点（经纬度对）。为了在 Apache Spark 中将输入文件拆分为 10 个 10MB 文件，我应该做什么，或者如何自定义拆分。

注意：我想处理每个映射器中的点的子集。

Spark 的抽象不提供显式的数据分割。但是，您可以通过多种方式控制并行性。

假设您使用 YARN，HDFS 文件会自动拆分为 HDFS 块，并在 Spark 操作运行时同时处理它们。

除了 HDFS 并行性之外，还可以考虑将分区器与 PairRDD 一起使用。 PairRDD 是键值对 RDD 的数据类型，分区器管理从键到分区的映射。默认分区器读取spark.default.parallelism。分区器有助于控制数据的分布及其在 PairRDD 特定操作中的位置，例如：reduceByKey.

请查看以下有关 Spark 数据并行性的文档。

http://spark.apache.org/docs/1.2.0/tuning.html http://spark.apache.org/docs/1.2.0/tuning.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

如何在 Apache Spark 中分割输入文件的相关文章

Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
带可变参数的 Spark UDF

如文档中所示列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
为什么我不需要在 Databricks 中创建 SparkSession？

为什么我不需要在 Databricks 中创建 SparkSession 集群设置的时候会自动创建一个SparkSession吗还是其他人帮我做的这仅在笔记本中完成以简化用户的工作并避免他们指定不同的参数其中许多参数不会产生任何效果
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data
Spark Dataframe 中的分析

在这个问题中我们有两个经理 M1 和 M2 在经理 M1 的团队中有两个员工 e1 和 e2 在 M2 的团队中有两个员工 e4 和 e5 以下是经理和员工的层次结构 1 M1 a e1 b e2 2 M2 a e4 b e5 我们有以下
如何指定spark-submit使用的Python版本？

我有两个版本的Python 当我使用 Spark submit 启动 Spark 应用程序时该应用程序使用默认版本的 Python 但是我想使用另一个如何指定spark submit使用的Python版本您可以设置PYSPARK P
使用 databricks 列出 Azure Blob 中的所有文件

我正在使用 pyspark python 脚本来列出 Azure blob 存储中的所有文件包括子目录我在 scala 中找到了一个用于此目的的脚本需要帮助将此脚本转换为 pyspark https learn microsoft c
Spark运行错误java.lang.NoClassDefFoundError: org/codehaus/jackson/annotate/JsonClass

import org apache spark SparkContext import org apache spark SparkConf import play api libs json import java util Date i
Apache Spark 从 S3 读取异常：内容长度分隔消息正文过早结束（预期：2,250,236；收到：16,360）

我想从 S3 资源创建 Apache Spark DataFrame 我在 AWS 和 IBM S3 Clout 对象存储上尝试过都失败了 org apache spark util TaskCompletionListenerExcep
警告 ReliableDeliverySupervisor：与远程系统的关联失败，地址现已门控 [5000] 毫秒。原因：[已解除关联]

我正在 aws Spark 上运行以下句子 val sqlContext new org apache spark sql SQLContext sc import sqlContext implicits case class Wiki
将结构数组分解为 Spark 中的列

我想将结构数组分解为列由结构字段定义例如 root arr array nullable true element struct containsNull true id long nullable false name string
从 Spark 数据帧中过滤大量 ID

我有一个大型数据框其格式类似于 ID Cat date 12 A 201602 14 B 201601 19 A 201608 12 F 201605 11 G 201603 我需要根据大约 500 万个 Is 的列表来过滤行最直接的方

随机推荐

OpenShift、python 2.7 和带有 htaccess 的静态文件

我正在尝试配置 apache 来为 URL 提供静态文件例如site com img bla jpg Python墨盒烧瓶我知道预配置的别名是什么wsg static目录所以我们可以使用site com static bla jpg
在 pandas/matplotlib/seaborn python 中使用自定义配色方案

我想对各种绘图使用自定义配色方案但无法使其工作对这些绘图使用 seaborn 和或 matplob pandas flatui 9b59b6 3498db 95a5a6 e74c3c 34495e 2ecc71 ax sns viol
将 XIB 中的按钮链接到 Storyboard 中的视图控制器

我有一个 XIB 视图控制器里面有一个按钮我还有一个 storboard 视图控制器我想知道是否有一种方法可以将 xib 视图控制器中的按钮链接到故事板视图控制器简短的回答不不使用界面生成器不过你可以用代码来完成实例化两个视
将 MongoDB 中的 _id 类型更改为整数是否不好？

MongoDB 使用 ObjectId 类型作为 id 如果我将 id 设置为递增整数会不会很糟糕 With this https github com goncalossilva mongoid sequence宝石如果你有兴趣不它
在控制台中，有没有办法在按 Enter 时阻止 java 开始新行？

例如如果用户输入 7 4 我希望它输出 7 4 28 代替 7 4 28 我已经找了几个小时了还没有找到任何东西感谢您提前提供的任何帮助 public class RecursiveMultiplication public stat
在 shell 脚本中将 stdout 和 stderr 通过管道传输到两个不同的进程？

我有一个管道正在做 command1 command2 因此 command1 的 stdout 转到 command2 而 command1 的 stderr 转到终端或 shell 的 stdout 所在的任何地方如何将 comma
清除 Magento 中的 URL 键

我已经为添加了自己产品的店主安装了 magento 不幸的是他不理解 URl 关键字段当他复制产品时每个产品现在都具有相同的 URL 并且编号递增 product 1234 html 下一个为 product 1235 html 由于他
无法在 Windows 上安装 Aptana Studio 3.6

我想在 Windows 下使用 Aptana Studio 进行 Rails 开发我目前有不同的开发工具和 ide 已启动并正在运行如 git ruby jdk 我也想安装 Aptana Studio 但我不能下载并运行安装程序后它
使用 if 语句对数字进行分类的循环[重复]

这个问题在这里已经有答案了我正在创建的循环遇到问题我的意图是循环将查看值落在哪里并给该值另一个名称这是我正在尝试做的一个例子 a lt rnorm 10 0 1 b lt rnorm 10 0 1 testing lt data fr
在 Perl 中更改哈希值的引用

我遇到了这个并找不到答案我想看看是否可以更改哈希的引用换句话说我有一个散列和一个返回散列引用的函数我想让我的散列指向此引用指定的内存位置而不是复制它指向的散列的内容代码看起来像这样 hash h gt hashref 我的明
Spring Boot中如何获取文件属性的内容？

正如标题我的自定义属性 app settings my chassisNum 10 java代码 PropertySource classpath appconf properties ConfigurationProperties pr
我应该使用哪个 .net 图表库？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我想在 Windows 窗体上绘制实时图表我的平台是 Net Framework 3 5 图书馆应该提供什么像啤酒一样免费结果应该很漂亮
java VLCJ 教程 java.lang.UnsatisfiedLinkError

我正在尝试使用 VLCJ 但陷入了困境第一个教程 http www capricasoftware co uk vlcj tutorial1 php 这是我的代码 package vlcj tutorial1 import uk co ca
在 httplib.HTTPConnection 上多次发送，在 HTTPResponse 上多次读取？

是否可以在多个段中发送一个简单的单个 http POST 请求未进行块编码我正在考虑使用httplib HTTPConnection并调用send方法不止一次并且调用read在每个之后的响应对象上send 上下文我正在合作设计一个
LNK2019 包含 asio 标头时，使用 cmake 生成的解决方案

我正在尝试使用 cmake 和 boost 库将一个大项目从 gcc Linux 移植到 msvc windows 该项目对于 gcc 编译并运行良好但在 msvc 上它返回以下错误 Dyna obj error LNK2019 unre
即使使用InputStream，如何获取APK文件的可靠且有效的清单内容？

背景我想获取有关 APK 文件包括拆分 APK 文件的信息即使它们位于压缩的 zip 文件内无需解压缩就我而言这包括各种内容例如包名称版本代码版本名称应用程序标签应用程序图标以及是否是拆分的 APK 文件请注意
Google Composer - 如何在环境中安装 Microsoft SQL Server ODBC 驱动程序

我是 GCP 和 Airflow 的新手正在尝试通过 python 3 通过简单的 PYODBC 连接来运行我的 python 管道但是我相信我已经找到了需要在计算机上安装的内容 Microsoft doc https learn m
我什么时候应该停止更新位置管理器？

我有一个可以调用以获取用户位置的应用程序 void getLocation locationManager CLLocationManager alloc init locationManager delegate self locatio
Dotnet Core 从 Mac 发布到 IIS

我想将我的 dotnet core 应用程序从 mac 发布到 IIS 我用VS code用于代码编写和点网核心 1 1用于发布到本地目录例如 bin 发布发布我的文件已编译好准备复制到 IIS 在我的 IIS 上我目前已经安装了
如何在 Apache Spark 中分割输入文件

假设我有一个大小为 100MB 的输入文件它包含大量 CSV 格式的点经纬度对为了在 Apache Spark 中将输入文件拆分为 10 个 10MB 文件我应该做什么或者如何自定义拆分注意我想处理每个映射器中的点的子集 Sp

如何在 Apache Spark 中分割输入文件

如何在 Apache Spark 中分割输入文件 的相关文章

随机推荐

热门标签

如何在 Apache Spark 中分割输入文件的相关文章