关于 Hadoop 和压缩输入文件的非常基本的问题

2024-06-20

我已经开始研究 Hadoop。如果我的理解是正确的，我可以处理一个非常大的文件，它会被分割到不同的节点上，但是如果文件被压缩，那么文件就无法分割，并且需要由单个节点处理（有效地破坏了运行一个mapreduce（一个并行机器集群）。

我的问题是，假设上述内容是正确的，是否可以将大文件手动分割为固定大小的块或每日块，压缩它们，然后传递压缩输入文件的列表来执行映射缩减？

BZIP2在hadoop中是可分割的——它提供了非常好的压缩比，但从CPU时间和性能来看并不能提供最佳结果，因为压缩非常消耗CPU。

LZO在hadoop中是可分割的——利用hadoop-lzo https://github.com/twitter/hadoop-lzo您有可分割的压缩 LZO 文件。您需要有外部 .lzo.index 文件才能并行处理。该库提供了以本地或分布式方式生成这些索引的所有方法。

LZ4在hadoop中是可分割的——利用hadoop-4mc https://github.com/carlomedas/4mc您有可分割的压缩 4mc 文件。您不需要任何外部索引，并且可以使用提供的命令行工具或通过 Java/C 代码在 hadoop 内部/外部生成档案。 4mc 可以在 hadoop LZ4 上以任何速度/压缩比级别使用：从达到 500 MB/s 压缩速度的快速模式到提供更高压缩比的高/超模式，几乎可与 GZIP 相媲美。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Compression

Hadoop

关于 Hadoop 和压缩输入文件的非常基本的问题的相关文章

如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
如何使用 gzip 压缩 .net 对象实例

我想在将数据库查询结果添加到缓存之前对其进行压缩我希望能够压缩任何引用类型我有一个用于压缩字符串的工作版本这个想法基于 scott hanselman 的博客文章http shrinkster com 173t http shrink
以编程方式读取 Hadoop Mapreduce 程序的输出

这可能是一个基本问题但我在谷歌上找不到答案我有一个映射缩减作业它在其输出目录中创建多个输出文件我的 Java 应用程序在远程 hadoop 集群上执行此作业作业完成后需要使用以下命令以编程方式读取输出org apache had
Hive 聚集在多个列上

据我所知当配置单元表聚集在一列上时它会执行该分桶列的哈希函数然后将该行数据放入其中一个桶中每个桶都有一个文件即如果有 32 个桶那么 hdfs 中就有 32 个文件将 clustered by 放在多个列上意味着什么例如假
MapReduce 中的分区到底是如何工作的？

我认为我总体上对 MapReduce 编程模型有一定的了解但即使在阅读了原始论文和其他一些来源之后我仍然不清楚许多细节特别是关于中间结果的分区我将快速总结到目前为止我对 MapReduce 的理解我们有一个可能非常大的输入数据集
合并 2 个大型 CSS 文件的有效方法

我正在寻找一个可以合并 2 个大型 CSS 文件的工具到目前为止我尝试过的所有方法例如CSSMerge 都没有成功其中一些只是随机删除属性其他人则因 webkit 和 moz 等非标准属性而窒息并给我错误我还需要保留每条规则大小
MapReduce 中 1 个任务的减速器数量

在典型的 MapReduce 设置如 Hadoop 中 1 个任务使用多少个减速器例如计算单词数我对 Google MapReduce 的理解意味着只涉及 1 个减速器那是对的吗例如单词计数会将输入分为 N 个块并且 N 个
从机上的 DiskErrorException - Hadoop 多节点

我正在尝试处理来自 hadoop 的 XML 文件在对 XML 文件调用字数统计作业时出现以下错误 13 07 25 12 39 57 INFO mapred JobClient Task Id attempt 201307251234
使用 Hive 计算文本变量的单词频率

我有一个变量每一行都是一个句子例子 Row1 Hey how are you Rwo2 Hey Who is there 我希望输出是按单词分组的计数 Example Hey 2 How 1 are 1 我正在使用 split a bi
C# 创建包含多个文件的 ZIP 存档

我正在尝试创建包含多个文本文件的 ZIP 存档如下所示 Dictionary
Hive：为现有文件夹结构添加分区

我在 HDFS 中有一个文件夹结构如下所示但是实际上没有使用以下命令在表上创建分区ALTER TABLE ADD PARTITION命令即使文件夹结构的设置就像表有分区一样如何自动将所有分区添加到Hive表中 Hive 1 0 外
org.apache.hadoop.security.AccessControlException：客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS] 问题

我正在使用 java 客户端通过 Kerberos 身份验证安全访问 HDFS 我尝试打字klist在服务器上它显示已经存在的有效票证我收到的异常是客户端无法通过以下方式进行身份验证 TOKEN KERBEROS 帮助将不胜感激这是一
HIVE - 使用WITH CLAUSE插入覆盖

我有一个生成的查询以WITH子句开头当我在控制台中运行它时当我尝试使用INSERT OVERWRITE运行查询以将输出加载到单独的配置单元表中时该查询工作正常 INSERT OVERWRITE TABLE proc db master
关于 Hadoop 和压缩输入文件的非常基本的问题

我已经开始研究 Hadoop 如果我的理解是正确的我可以处理一个非常大的文件它会被分割到不同的节点上但是如果文件被压缩那么文件就无法分割并且需要由单个节点处理有效地破坏了运行一个mapreduce 一个并行机器集群我的问题是
主节点的“start-all.sh”和“start-dfs.sh”没有启动从节点服务？

我已使用从属节点的主机名更新了 Hadoop 主节点上的 conf slaves 文件但我无法从主节点启动从属节点我必须单独启动从属服务器然后我的 5 节点集群才能启动并运行如何使用主节点的单个命令启动整个集群此外 Seconda
压缩图像使其小于 4KB

我有一个人的图像我想将其压缩以使其小于 4KB 我需要对其进行压缩并且即使图像缩小仍然可以识别人的脸部这是特蕾莎梅 Theresa May 142kB 并调整大小为 72x72 并转换为灰度并减少到 2kB图像魔术师在命令行 co
Deflate 压缩 - 数值示例

我真的很想看看一个数字示例手动压缩如何进行压缩以下非常短的文本 abc 已使用 deflate 算法进行压缩输出 eJxLTEoGAAJNASc 其二进制表示法为 01100101 01001010 01111000 01001100
Python - 从大（6GB+）zip 文件中提取文件

我有一个Python我需要在其中提取 ZIP 文件内容的脚本但是该 zip 文件大小超过 6GB 有很多关于zlib and zipfile但是我找不到适合我的情况的单一方法我有代码 with zipfile ZipFile fna
Hive 错误：parseException 缺少 EOF

我不确定我在这里做错了什么 hive gt CREATE TABLE default testtbl int1 INT string1 STRING stored as orc tblproperties orc compress NONE
从猪的单行输入生成多行输出

我的要求是通过在 Pig 脚本中使用单行输入来生成多行输出可能的解决方案有哪些这个想法是将你的输入线转换成一个袋子然后将其压平这里可能有两种情况阅读文字 txt load pig fun input text txt using

随机推荐

使用8086汇编语言画圆[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我试图使用 8086 汇编器画一个圆我尝试利用中点圆算法 https en wikipedia org wiki Midpoin
Cucumber 0.4.3 (cuke4duke) 与 java + maven gem 问题

我最近开始为 Cucumber 安装一个示例项目并尝试使用 maven java 运行它我遵循了这个指南 http www goodercode com wp using cucumber tests with maven and ja
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
使用接口有什么好处？

使用接口有什么用我听说它用来代替多重继承并且还可以用它来完成数据隐藏还有其他优点吗哪些地方使用了接口程序员如何识别需要该接口有什么区别explicit interface implementation and implicit
Firefox 书签探索未超过 Javascript 的第一级

我已经编写了一些代码来探索我的 Firefox 书签但我只获得了第一级书签即我没有获得文件夹中的链接 e g 搜索引擎雅虎网站谷歌网站在此示例中我只能访问 Search engines 和 google com 不能访问 yah
OnLongClickListener 不工作

我有一个ImageView 我需要使用onLongClickListener对于图像视图当我使用这段代码时什么也没有发生 Code gallery Gallery findViewById R id gall1 gallery setA
回发后刷新时提示确认表单重新提交。我做错了什么？

我有一个以空白默认状态启动的仪表板我让用户能够将保存的状态加载到仪表板中当他们单击应用按钮时我运行以下代码 function CloseAndSave var radUpload find radUpload1ID var in
SQL Server 数据库架构版本控制和更新

对于我的应用程序我必须支持更新方案并且数据库可能会受到影响我希望能够从旧版本更新到最新版本而无需安装中间版本例如假设我有版本 A 最旧的版本 B 中间版本和 C 新版本我希望能够将版本 A 直接更新到版本 C 对于应用程序文
在 VPC 内从 Lambda 访问 AWS S3

总的来说我对在 VPC 中使用 AWS Lambda 感到非常困惑问题是 Lambda 在尝试访问 S3 存储桶时超时解决方案似乎是 VPC 端点我已将 Lambda 函数添加到 VPC 以便它可以访问 RDS 托管数据库下面的
如何解决 Xcode 5 中的红色（已移动）文件？

在 Xcode 4 中当您要移动文件时可以通过单击右侧菜单中的按钮并通过 Finder 选择新位置来解析文件的新位置在 Xcode 5 中右侧菜单中没有按钮我还没有找到任何方法通过右键单击文件或顶部菜单栏选项来指定文件的新位置在
Android Studio 无法识别 Mac/Linux 上的 OnePlus2

我的 Android Studio 1 3 2 无法识别我的手机一加二号我有 Mac OS x Yosemite 10 10 5 和最新的 Android SDK 更新1 我的Mac上安装的文件传输软件 Android File Tra
最新的 Hibernate 和 Derby：无法建立 JDBC 连接

我正在尝试创建一个使用 Hibernate 连接到 Derby 数据库的准系统项目我正在使用 Hibernate 和 Derby 的最新版本但我得到的是通用的Unable to make JDBC Connection error 这是
django Q 对象嵌套reduce

得到非常复杂的查询请不要尝试解决示例问题更复杂 crit crit append Q firstcond name Q firstcond isnull True crit append Q secondcond name Q firs
提交表单并重定向页面

我在 SO 上看到了很多与此相关的其他问题但没有一个对我有用我正在尝试提交POST表单然后将用户重定向到另一个页面但我无法同时实现这两种情况我可以获取重定向或帖子但不能同时获取两者这是我现在所拥有的
如何使用 LINQ2SQL 连接两个不同上下文的表？

我的应用程序中有 2 个数据上下文不同的数据库并且需要能够通过上下文 B 中的表的右连接来查询上下文 A 中的表我该如何在 LINQ2SQL 中执行此操作 Why 我们正在使用 SaaS 产品来跟踪我们的时间项目等并希望向该产品发
向上滚动时固定项目

所以我有以下屏幕我正在寻找一种方法使得当用户向上滚动时包含进度条和这 4 个数据字段 ItemHeader 的小部件将向上滚动但搜索容器 SearchTextField 将被固定到顶部当然当用户向下滚动时它应该重新出现我找
UIView 圆角 - Swift 2.0？

我会尝试将一些项目更新到 Swift 2 0 我有一个视图左上角有一个圆角在 Swift 没有警告没有错误只是没有圆角这就是它在 Swift let maskPath UIBezierPath roundedRect conten
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
由 IHttpClientFactory 注入时模拟 HttpClient 处理程序

我创建了一个自定义库它会自动为依赖于特定服务的 Polly 策略设置HttpClient 这是使用以下方法完成的IServiceCollection扩展方法和类型化客户端方法一个简化的例子 public static IHttpClie
关于 Hadoop 和压缩输入文件的非常基本的问题

我已经开始研究 Hadoop 如果我的理解是正确的我可以处理一个非常大的文件它会被分割到不同的节点上但是如果文件被压缩那么文件就无法分割并且需要由单个节点处理有效地破坏了运行一个mapreduce 一个并行机器集群我的问题是

关于 Hadoop 和压缩输入文件的非常基本的问题

关于 Hadoop 和压缩输入文件的非常基本的问题 的相关文章

随机推荐

热门标签

关于 Hadoop 和压缩输入文件的非常基本的问题的相关文章