控制配置设置 Apache Spark UTF 编码以写入为 saveAsTextFile

2024-01-12

那么如何告诉spark在使用时使用哪种UTFsaveAsTextFile(path)？当然，如果知道所有字符串都是 UTF-8 那么它将节省 2 倍的磁盘空间！（假设像java一样默认UTF是16）

saveAsTextFile实际上使用Text来自hadoop，编码为UTF-8。

def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]) {
    this.map(x => (NullWritable.get(), new Text(x.toString)))
      .saveAsHadoopFile[TextOutputFormat[NullWritable, Text]](path, codec)
  }

来自 Text.java：

public class Text extends BinaryComparable
    implements WritableComparable<BinaryComparable> {

  static final int SHORT_STRING_MAX = 1024 * 1024;

  private static ThreadLocal<CharsetEncoder> ENCODER_FACTORY =
    new ThreadLocal<CharsetEncoder>() {
      protected CharsetEncoder initialValue() {
        return Charset.forName("UTF-8").newEncoder().
               onMalformedInput(CodingErrorAction.REPORT).
               onUnmappableCharacter(CodingErrorAction.REPORT);
    }
  };

  private static ThreadLocal<CharsetDecoder> DECODER_FACTORY =
    new ThreadLocal<CharsetDecoder>() {
    protected CharsetDecoder initialValue() {
      return Charset.forName("UTF-8").newDecoder().
             onMalformedInput(CodingErrorAction.REPORT).
             onUnmappableCharacter(CodingErrorAction.REPORT);
    }
  };

如果你想保存为 UTF-16 我想你可以使用saveAsHadoopFile with org.apache.hadoop.io.BytesWritable并获取 java 的字节String（正如你所说，这将是 UTF-16）。像这样的事情：
saveAsHadoopFile[SequenceFileOutputFormat[NullWritable, BytesWritable]](path)
您可以从以下位置获取字节"...".getBytes("UTF-16")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

控制配置设置 Apache Spark UTF 编码以写入为 saveAsTextFile 的相关文章

如何将 Java 地图转换为在 Scala 中使用？

我正在开发一个 Scala 程序该程序调用 Java 库中的函数处理结果并生成 CSV 有问题的 Java 函数如下所示 Map
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
Kafka 分区键无法正常工作

我正在努力解决如何正确使用分区键机制的问题我的逻辑是设置分区号为3 然后创建三个分区键为 0 1 2 然后使用分区键创建三个KeyedMessage 例如 KeyedMessage 主题 0 消息 KeyedMessage 主题 1 消息
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
如何在 Scala 2.11 中查找封闭源文件的名称

在编译时如何在 scala 2 11 中检索当前源文件编写代码的位置的名称这是一种实际有效的方法 val srcFile new Exception getStackTrace head getFileName println sr
当泛型类型与无界通配符一起使用时，不考虑类型参数绑定

在我的项目中我有一个这样的星座 trait F trait X A lt F def test x X X lt F x Trait X有一个类型参数其上限为F 根据我的理解类型X and X lt F 应该是等价的但scalac2
Scala 中的随机列表[重复]

这个问题在这里已经有答案了我对 scala 中的随机播放列表有疑问使用scala util Random 例如我有 val a cyan val b magenta val c yellow val d key val color Ra
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
用于共享大型不可变对象的工厂/缓存策略

我的问题很像上一篇文章最佳哈希集初始化 Scala Java https stackoverflow com questions 14714900 optimal hashset initialization scala java 我想用的
Rails 3.1、Ruby 1.9.2-p180 和 UTF-8 问题

我在使用 UTF 8 字符时遇到一些问题这是 db seeds rb User create username eml first name last name ck email email protected cdn cgi l ema
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
解决 sbt 中 jar 加载冲突的问题

当两个特定的 sbt 插件启动时我在 sbt 启动时收到以下错误加在一起到其构建定义中的项目这些 sbt 插件之一是规模化jdbc https github com scalikejdbc scalikejdbc另一个是my own h
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
你能在 scala 中使用 varargs 柯里化一个函数吗？

我正在考虑如何用可变参数柯里化一种方法然后我意识到我什至不知道如何去做理想情况下它应该让您可以随时开始使用它然后以可迭代结束 def concat strs String strs mkString val curriedConca
为什么同样的算法在 Scala 中运行比在 C# 中慢得多？以及如何让它更快？

该算法根据序列中每个成员的变体创建序列的所有可能变体 C 代码 static void Main string args var arg new List
在泛型方法中返回原始集合类型

假设我们想要创建一个像这样的函数minBy返回集合中同等极简主义的所有元素 def multiMinBy A B Ordering xs Traversable A f A gt B val minVal f xs minBy f xs f
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练

随机推荐

复制的变量改变了原来的变量？

我在 Python 中有一个非常非常奇怪的简单问题 def estExt matriz erro 1 Determinar o vector X das solu es print Matrix after print matriz aux
重新定义；不同的基本类型（typedef struct）

当结构在不同的文件中定义时我在尝试使结构正常工作时遇到了一些麻烦据我所知错误告诉我该结构被定义了两次不同的时间我相信也许我可能需要在某个地方使用 extern 我尝试过尝试并在 Google 上寻求帮助但没有成功任何帮助将不胜感
在 Windows 10 上通过 DISM 安装 IIS Windows 功能

根据这个链接 https learn microsoft com en us previous versions windows it pro windows 8 1 and 8 hh824822 v win 10 我要安装 IIS Win
SSLHandshakeException：未找到证书路径的信任锚。仅适用于 Android API < 19

我在设备安卓SSL它似乎适用于我测试的所有 api gt 19 设备我在 19 年前如何不断收到未找到认证路径的信任锚错误我已经使用 keytool 创建了密钥库并且似乎不是问题因为它在某些设备上工作这是我的代码 URL u
如何堵住此类孔 3

继从我的最后一个问题 https stackoverflow com questions 58035216 how to plug this type hole 2 我现在能够得到我想要的结果但以一种完全邪恶的方式使用unsafePer
允许 window.open 打开新窗口而不是弹出窗口

我有这个JS代码 window open loginurl blank 来自一个条件例如 if userloggedin popup another page else window open loginurl blank loginur
thymeleaf 内联 javascript 框架问题

打印到文件中的替换文本与 Jackson 库的 ObjectMapper 所做的不同对于上面示例中的 Thymeleaf listObject 将是 dataType type DataType name STRING friendlyN
动态链接在 Android 13 中无法打开

我在 Flutter 应用程序中使用动态链接我的动态链接无法在 Android 13 所有其他 api 级别和 iOS 上打开链接有效 gt 引导回应用程序至指定屏幕我已经检查了 Android Manifest 并确保intent
“赛普拉斯命令不会返回其臣民，而是屈服于他们”这句话是什么意思？

我正在了解 Cypress io 并在他们的官方网站上看到了这个声明赛普拉斯io https docs cypress io guides core concepts introduction to cypress html Subject
将反序列化的 json 类转换为数据表

我正在尝试使用下面的代码将反序列化为类的 json 转换为数据表但是下面的代码在最后一行失败 using var webClient new System Net WebClient var downloadTable webClient
在 c++11 和 c++98 的单一构建中使用 cmake 2.8.2 来创建共享库时，如何每次重新编译源文件？

我的项目目录结构为 Root Source Common MyFolder My 3 source files and header 当我构建项目时它会生成 3 到 4 个共享库 Lib1使用 c 98 编译其他使用 c 11 编译标
自定义配置文件不适用于表单验证

我已经在 application config validation rules php 中设置了验证规则它看起来像这样简洁版本 config array member register gt array field gt langua
AOSP x86_64 模拟器在 Android Studio 中不可见

我正在使用 AOSP 模拟器来测试我的代码我在我的电脑上下载了AOSP的android10 release源代码然后使用以下命令 source build envsetup sh set stuff for environment lu
构建多模块 Mercury 程序

问构建双模块汞计划的简单模板是什么 Module 1 定义并导出一个简单的函数或谓词 Module 2 导入函数谓词来计算有用的结果并输出结果我将使用以下方法首先使用以下方法定义模块您要导出的函数或谓词或谓词接口部分 File
ECMAScript 6 类析构函数

我知道 ECMAScript 6 有构造函数但是 ECMAScript 6 是否有析构函数之类的东西例如如果我在构造函数中将对象的某些方法注册为事件侦听器我想在删除对象时删除它们一种解决方案是制定一个约定创建一个destruct
如何将 char 数组转换为 int？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案所以输入文件如下所示 Adam Zeller 45231 78 86 91 64 90 76 Barbara Young 274253 88
在正则表达式中指定 Unicode 字符

如何创建包含 unicode 字符的 ruby 正则表达式例如我想在正则表达式中使用字符 u0002 你可以写 x02 u0002 x02 gt 0 如果您不确定您可以从字符串开始 Regexp new u0002 gt x02 这是
在 R 中安全地创建 S3 泛型

Henrik Bengtsson 为互联网提供了一种很好的方式在 R 中创建 S3 泛型 http www1 maths lth se help R setGenericS3 不必担心它们是否已经在 2002 年之前创建过他的函数 set
指针类型静态字段的值被调试器显示为零 0x0，而实际上它具有有效值

我在尝试使用类型访问结构体静态字段的值时遇到了这种行为uint 调试时监视窗口显示静态字段StaticBitMask的值为零但实际上并且如预期的那样它是一个有效的指针并且Console WriteLine 打印它如下面的控制台输
控制配置设置 Apache Spark UTF 编码以写入为 saveAsTextFile

那么如何告诉spark在使用时使用哪种UTFsaveAsTextFile path 当然如果知道所有字符串都是 UTF 8 那么它将节省 2 倍的磁盘空间假设像java一样默认UTF是16 saveAsTextFile实际上使用Text

控制配置设置 Apache Spark UTF 编码以写入为 saveAsTextFile

控制配置设置 Apache Spark UTF 编码以写入为 saveAsTextFile 的相关文章

随机推荐

热门标签