Hadoop MapReduce 中为 Java 类型提供可写包装类的原因是什么？

2023-12-14

在我看来，一个org.apache.hadoop.io.serializer.Serialization可以编写为直接以与包装类将类型序列化为相同的格式来序列化 java 类型。这样，Mappers 和Reducers 就不必处理包装类。

没有什么可以阻止您更改序列化以使用不同的机制，例如 java Serialized 接口或 thrift、protocol buffers 等。

事实上，Hadoop 附带了一个（实验性）序列化实现Java可序列化对象 - 只需配置序列化工厂即可使用它。默认的序列化机制是WritableSerialization，但这可以通过设置以下配置属性来更改：

io.serializations=org.apache.hadoop.io.serializer.JavaSerialization

但请记住，任何需要可写的东西（输入/输出格式、分区器、比较器）等都需要替换为可以传递的版本Serializable实例而不是Writable实例。

为好奇的读者提供更多链接：

http://www.tom-e-white.com/2008/07/rpc-and-serialization-with-hadoop.html
Hadoop Writable 和 java.io.serialization 之间有什么联系和区别？- 这似乎与您所问的问题类似，Tariq 有一个很好的链接，其中 Doug Cutting 解释了使用背后的基本原理可写性优于可序列化

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

serialization

Hadoop

MapReduce

Writable

Hadoop MapReduce 中为 Java 类型提供可写包装类的原因是什么？的相关文章

序列化对象以进行单元测试

假设在单元测试中我需要一个对象其中所有 50 个字段都设置了一些值我不想手动设置所有这些字段因为这需要时间而且很烦人不知何故我需要获得一个实例其中所有字段都由一些非空值初始化我有一个想法如果我要调试一些代码在某个时候我会得
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
处理 oozie 工作流程中的循环

我有一个 oozie 用例用于检查输入数据可用性并根据数据可用性触发 MapReduce 作业所以我编写了一个 shell 脚本来检查输入数据并在 oozie 中为其创建了一个 ssh 操作输入数据检查的重试次数和重试间隔应该是可配
Pig 10.0 - 将元组分组并在 foreach 中合并包

我在用着Pig 10 0 我想在 foreach 中合并包假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组并将包与一组语义合并以获
Spring JSON序列化、Gson反序列化

我目前在某些内部对象的反序列化方面遇到问题在春天我在使用输出之前初始化所有对象 ResponseBody 例如这是一个响应 id 1 location id 1 extra location data id 2 location 1
使用 XML 序列化时的循环引用？

当尝试使用 XMLSerialization 序列化对象时我收到以下异常 A circular reference was detected while serializing an object of type MyObject 我知道
从 ApiController 中的 json 序列化中排除属性

我试图在 Web ApiControllers 中排除属性被序列化为 JSON 我已经验证了以下 2 个场景的工作原理我已在我希望排除的属性中包含以下属性 System Web Script Serialization ScriptIgn
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
在java中是否可以使用反射创建没有无参数构造函数的“空白”类实例？

我有一个没有默认构造函数的类我需要一种方法来获取此类的空白实例空白意味着实例化后所有类字段都应具有默认值如 null 0 等我问这个问题是因为我需要能够序列化反序列化大对象树而且我无法访问该对象类的源并且类既没有默认构造
C# 无法捕获 SerializationException

我的程序在加载序列化文件的部分遇到问题如果文件无法反序列化我希望很好地失败但由于某种原因我的程序将中断而不是进入 catch 子句这是我的代码 using FileStream fs new FileStream openFile
使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave
使用 System.Text.Json.Serialization.JsonConverter 解析 JSON 序列化过程中复杂类型的循环引用

有一个复杂类型引用相同类型的对象有时是同一对象 public class User public string Name get set public int Age get set public User Reference get s
java.io.IOException: EnsureRemaining: 仅剩余 0 个字节，尝试读取 1

我在 giraph 中的自定义类方面遇到一些问题我制作了 VertexInput 和 Output 格式但总是收到以下错误 java io IOException ensureRemaining Only bytes remaining
C# 的 xml 序列化中是否有一个属性可以跳过空数组？

C 的 xml 序列化中是否有一个属性可以跳过空数组这将提高 xml 输出的可读性好吧你也许可以添加一个ShouldSerializeFoo method using System using System ComponentMode
Hadoop 上的 Sqoop：NoSuchMethodError：com.google.common.base.Stopwatch.createStarted() [重复]

这个问题在这里已经有答案了我在 Google Cloud DataProc 上的 hadoop 上运行 sqoop 以通过 Cloud SQL 代理访问 postgresql 但遇到 Java 依赖项错误 INFO First Cloud
保存数据的最佳方法

我创建了一个课程我想在其中跟踪学生的统计数据我打算稍后制作一个 GUI 来操作这些数据我的主要问题是保存和稍后检索这些数据的最佳方法是什么我读过有关 pickle 和 JSON 的内容但我并不真正了解它们是如何工作的特别是它们
当使用手动实现的具有结构体变体的枚举序列化到 TOML 时，为什么会出现 UnsupportedType 错误？

我正在尝试实施Serialize对于包含结构变体的枚举这serde rs 文档 https serde rs impl serialize html serializing an enum表示以下内容 enum E Use three s
是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
将 json 反序列化为对象：包装类解决方法

这是我的 json accessType Grant spaces spaceId 5c209ba0 e24d 450d 8f23 44a99e6ae415 privilegeId db7cd037 6503 4dbf 8566 2cca4
使用 kryo 注册课程的策略

我最近发现了 kryonet 库它非常棒并且非常适合我的需求然而我遇到的一个问题是制定一种好的策略来注册所有可以转移的类我知道我可以在每个对象中编写一个静态方法该方法将返回它使用的所有类的列表但我真的不想这样做为了我自己的时间

随机推荐

将数据从 javascript 弹出多行文本框传输到选择控件

我正在尝试将数据从多行文本框传输到选择控件多行文本框显示为弹出窗口我希望用户在弹出窗口中单击提交后将粘贴在文本框中的所有记录传输到选择控件可能使用 jquery 或 javascript 或者其他东西该页面是用 MVC3 Ra
使用 XPutImage 显示 png 文件不起作用

我尝试使用 xputimage 在 xwindow 中显示 png 文件但 xputimage 抛出以下错误窗口宽度 426 高度 341 X 请求失败错误 BadMatch 参数属性无效失败请求的主要操作码 72 X PutImag
用于创建具有特定名称的新文件的 Github URL？

我知道你可以使用这个网址github com
JS - import '@foo/bar' 中 @ 的含义

在阅读本文时article早些时候我遇到了以下代码行 import run from cycle core 这让我产生了以下问题有何意义符号如果有的话之间有区别吗import foo bar and import foo bar
如何在 HTML 中嵌入 SWF？

如何在 HTML 中嵌入 SWF 非官方行业标准是使用SWF对象文档
Windows 上的 Erlang 列表理解乘法给出“\f”

大家好我在 Windows 上运行 Erlang 时遇到一个奇怪的问题我运行的是 16B 和 WinXP 我有以下代码 module test export cost 1 total 1 cost orange gt 5 cost ap
Azure 连接字符串异常“发生与网络相关或实例特定的错误”

尝试使用以下连接字符串连接到 SQL Azure 时服务器 tcp SERVER database windows net 1433 数据库 DBNAME 用户ID USER SERVER 密码 PASSWORD Trusted Conn
在生产 Azure Service Fabric 群集中找不到 libsodium-64.dll

在 Azure Service Fabric 可靠服务中使用 libsodium net 来发挥其所有安全优势在我的本地开发集群上一切都工作正常尽管我必须将 libsodium 64 dll 设置为复制到输出目录不幸的是当部署到
如何从 apply.monthly 函数中提取日期

如果我有一组每日数据我想获取每个月的最小值以及该值发生的日期如果我使用apply monthly函数它给了我最小值但相应的日期是每个月的月底而不是实际发生的日期我怎样才能得到正确的日期 library xts create sa
当传递大的逗号分隔值时，使用自定义 TABLE TYPE 作为参数而不是 SQL“IN”子句是否更好

我有一个存储过程它接受逗号分隔的字符串作为输入有时可能太大大约超过 8000 个字符或更多在这种情况下查询性能有时会下降我认为里面的字符长度有限制IN条款为此有时我会遇到错误现在我需要知道使用自定义表类型作为参数并使用是
R 查询 '$'()

我创建了一个数据框并尝试访问数据框中的列代码如下图 df lt data frame n c A B C mark 1 c 23 25 17 mark 2 c 45 46 50 j lt paste mark 1 sep j f lt d
LUIS 应用程序无法训练 - 应用程序训练失败：l_general：重新训练

我无法再构建和训练我的调度员 LUIS 应用程序如果我尝试运行调度 CLI 来刷新我的调度程序模型例如dispatch refresh dispatch mydispatchfile dispatch 它会挂在训练调度模型上并最终返回
在 Magento 中以编程方式添加面包屑路径？

在 Magento 中当用户直接访问产品页面例如从 Google 时面包屑导航将仅为主页 gt 产品名称即使用户直接从 Google 访问页面我如何在其中添加类别例如关于这一页我想在面包屑中添加婚礼服装和婚礼礼服类
无法将集合与 InExpression 一起使用

我刚刚深入研究了一些 NHibernate 但我在必须编写的一个更复杂对我来说的查询中遇到了麻烦场景是我有一个员工对象其中附加了一系列技能我想传递一个技能列表来查询例如如果我只想要可以烹饪或编码或两者兼而
twitter bootstrap 中水平表单内的内联表单？

在 Twitter Bootstrap 中设计一个看起来像这样的表单请参阅下面的链接而不需要任何自制类的最佳方法是什么是否可以在水平表单内设置内部表单内联如下例所示不要筑巢
如何从 Makefile 设置 MAKEFLAGS，以删除默认的隐式规则

我尝试以下 makefile MAKEFLAGS s MAKEFLAGS r configure 然后当我运行 make 时我收到以下错误好像它想编译 configure 每default隐式规则 usr bin ld usr lib
Spark：解析数据帧同一列中不同格式的日期/时间戳（MM-dd-yyyy HH:mm、MM/dd/yy H:mm）

问题是我有一个数据集其中一列具有两种或多种日期格式一般来说我选择所有值作为字符串类型然后使用to date解析日期但我不知道如何解析具有两种或多种日期格式的列 val DF Seq 02 04 2020 08 02 03 04
如何将代码对象保存到文件中？

如何将代码对象 code 保存到文件中 gt gt gt c code line 1 gt gt gt gt pickle dump c f Traceback most recent call last File code
将 Android 视图附加到布局或从布局分离

我想在 Application 类的派生类的 onCreate 方法中创建一个 WebView 然后在调用活动 onCreate 时将其附加到主布局并在调用 onDestroyed 时将其分离因此每次创建销毁 Activity 时
Hadoop MapReduce 中为 Java 类型提供可写包装类的原因是什么？

在我看来一个org apache hadoop io serializer Serialization可以编写为直接以与包装类将类型序列化为相同的格式来序列化 java 类型这样 Mappers 和Reducers 就不必处理包装类没

Hadoop MapReduce 中为 Java 类型提供可写包装类的原因是什么？

Hadoop MapReduce 中为 Java 类型提供可写包装类的原因是什么？ 的相关文章

随机推荐

热门标签

Hadoop MapReduce 中为 Java 类型提供可写包装类的原因是什么？的相关文章