仅使用一个映射器的 Hadoop gzip 输入文件[重复]

2024-03-29

可能的重复：
为什么 hadoop 不能分割一个大文本文件，然后使用 gzip 压缩分割的内容？ https://stackoverflow.com/questions/6511255/why-cant-hadoop-split-up-a-large-text-file-and-then-compress-the-splits-using-gz

我发现，当使用 gzip 压缩的输入文件时，Hadoop 选择仅分配一个映射任务来处理我的映射/归约作业。

gzip 压缩文件超过 1.4 GB，因此我希望许多映射器并行运行（就像使用未压缩文件时一样）

我可以做任何配置来改进它吗？

Gzip 文件无法分割，因此所有数据仅由一张地图处理。必须使用其他一些可以分割压缩文件的压缩算法，然后数据将被多个映射处理。这是一篇关于它的好文章。 (1)

编辑：这是另一篇来自 Google 的关于 Snappy (2) 的文章。

(1) http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/ http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

(2) http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/ http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

gzip

MapReduce

仅使用一个映射器的 Hadoop gzip 输入文件[重复] 的相关文章

使用 ruby 解压缩（zip、tar、tag.gz）文件

我想解压很多 zip 文件是否有模块或脚本可以检查 zip 文件的格式并对其进行解压缩这应该适用于Linux 我不关心其他操作系统要从 tar gz 文件中提取文件您可以使用随 Ruby 分发的包中的以下方法 require rub
使用 TSQL 解压缩值

如何解压缩存储过程中的 varbinary max 值我想在 TSQL 代码中实现或调用gunzip 算法最好不启用 CLR 调查 sp OACreatehttp msdn microsoft com en us library ms1
使用自制软件安装hadoop时出错

我正在尝试在 Mac 上本地安装 hadoop 但在尝试 brew install hadoop 时收到以下错误 brew install hadoop gt Downloading http www apache org dyn clos
远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c
java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
Hive如何存储数据，什么是SerDe？

当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据执行 INSERT 或 CTAS 时请参阅第 441 页上的导入数据表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat？

我想编写多个输出文件如何使用 Job 而不是 JobConf 来执行此操作创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
mongodb 聚合随机化（shuffle）结果

我正在浏览一堆 mongo 文档但找不到洗牌或随机化结果内容的可能性有没有特别是对于聚合框架本身来说实际上并没有任何本地方法因为还没有可用的运算符来执行诸如生成随机数之类的操作因此无论您可能投射一个字段进行排序的任何匹配都不
无法从 JAR 文件加载主类

我有一个 Spark scala 应用程序我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系我成功显示了我的消息但他显示了错误像这样 Hello my applicat
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
Spark超时可能是由于HDFS中文件超过100万个的binary Files()

我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好但在纱线上失败并显示 client token N A diagnostics Application app
使用 Python 解压缩数据包的 gzip 有效负载

我目前正在开发一个程序该程序采用 pcap 文件并使用 scapy 包按 ip 分离出所有数据包我想解压缩使用 gzip 包压缩的有效负载我可以判断有效负载是否经过 gzip 压缩因为它包含 Content Encoding gzi
在 IIS 中启用 JavaScript GZIP 压缩？

我们希望使用 GZip 压缩庞大的 JavaScript 文件以加快网站的页面加载速度我知道这可以通过 IIS 来完成但我似乎找不到关于如何实现它的简单分步指南如果有人能向我指出这样的指南我将非常感激我以前从未这样做过所以它需
在 Hadoop 中处理带标头的文件

我想在 Hadoop 中处理很多文件每个文件都有一些头信息后面跟着很多记录每个记录都存储在固定数量的字节中对此有何建议我认为最好的解决方案是编写一个自定义的InputFormat http hadoop apache org co
Sqoop mysql错误-通信链路故障

尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
hive查询无法通过jdbc生成结果集

我是 Hive 和 Hadoop 的新手在我的教程中我想将表创建为 import java sql SQLException import java sql Connection import java sql ResultSet im
http://localhost:50070/ 的 hadoop Web UI 不起作用

命令 jps 显示以下详细信息第5144章 5464 节点管理器 5307 资源管理器 5800 Jps 显然namenode和datanode丢失了网络用户界面位于http 本地主机 50070 http localhost 5007
http压缩和url压缩有什么区别？

查看 Web config 中的节点我发现它允许 httpCompression 和 urlCompression 元素两者有什么区别我只想执行标准 gzip 我应该使用哪一个 url压缩指定what压缩和http压缩表示how进行压
如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

我想转换String反对IntWritableHadoop 中的对象任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par

随机推荐

将 Android GoogleSignIn 与 GmailScopes.GMAIL_SEND (gmail api) 结合使用

我想使用 GoogleSignIn 并使用 android 内部电子邮件地址 gmail 发送电子邮件 GoogleSignInOptions gso new GoogleSignInOptions Builder GoogleSignIn
更改搜索栏中的键盘颜色和外观

当用户点击搜索文本字段时我想将键盘的颜色更改为黑色我试图通过以下方式实现它UITextField textField UITextField appearance textField setKeyboardAppearance UIKe
jenkins中访问文件参数

我正在从事多配置工作回归 L1 在 Jenkins 中其任务是运行 2 种测试测试1和测试2 在多配置作业中它会触发执行器作业回归执行器运行所选测试的脚本这回归 L1作业被限制运行矩阵服务工作节点而矩阵作业将在从节点中运行自
Python Regex - 查找html标签之间的字符串[重复]

这个问题在这里已经有答案了我正在尝试提取 Html 标签之间的字符串我可以看到以前在堆栈溢出上也有人问过类似的问题但我对 python 完全陌生而且我很挣扎所以如果我有 b Bold Stuff b 我想要一个正则表达式让我 Bo
当我尝试向我的 S3 存储桶 (Node.js) 发送内容时 AWS 缺少凭证

我从昨天开始就遇到这个问题一直找不到解决方案我正在尝试将某些内容发送到我的 S3 存储桶但是当我尝试时此消息出现在我的控制台中 CredentialsError Missing credentials in config messa
在地图上绘制插值数据

我有在美国切萨皮克湾不同地点采集的物种丰富度调查数据我想以图形方式将这些数据呈现为热图我有一个纬度经度坐标和丰富度值的数据框我将其转换为SpatialPointsDataFrame并使用了autoKrige automap 包中的
张量流“模块”对象没有属性“contrib”

我使用pip方法安装了tensorflow 在python 2 7 debian linux上如官方文档所示 https www tensorflow org versions r0 9 get started os setup html
aws apigateway lambda 始终返回 502

我已经为我的代理服务器创建了 aws apigateway lambda 集成当我向网关发出 get 请求时请求已成功通过 lambda 函数也成功执行并在输出流中写入响应 statusCode 为 200 但 apigateway
以编程方式启动 EA

我想通过 Windows 服务打开 EA 会话并在幕后执行一些操作我使用 Repository API 但是不知道如何正确初始化它 EA Repository repository repository OpenFile C test e
如何在 .ashx 上手动创建 ODataQueryOptions

我想重建我的上一个项目过去我没有使用任何 Web API 我可以使用 ODataQueryOptions 来执行 filter orderby top skip 操作吗对于我自己的 handler ashx 中的查询就像是 var
e.preventdefault();不工作

我真的很难得到e preventDefault 上班这是我的代码 ListSnapshot a live click function e var url this attr href WebPartWPQ2 ms listviewtab
在 MKMapView 上安装注释，同时保持用户位置居中

我正在尝试将所有注释放入我的MKMapView同时将当前用户位置保持在地图中心已经有很多参考资料 1 2 介绍如何缩小区域以适合地图上的注释但它们会调整当前的中心位置例如如果所有注释都位于我当前用户位置的东部它将进行调整以便当前用
在现有数据库上使用 liquibase

我们有一个正在生产的现有数据库我们决定使用 liquibase 进行所有进一步更新并创建任何新数据库例如开发或集成我们根据现有的生产模式创建了 liquibase 脚本以创建任何新的数据库如开发集成等除了该脚本之外我们还添加
当终止使用 python 子进程 Popen 启动的进程时，如何关闭标准输出管道？

我想知道当杀死在不同线程中启动的子进程时是否可以关闭通信管道如果我不调用communicate 那么kill 将按预期工作在一秒而不是五秒后终止进程我发现了类似问题的讨论here http bugs python org issue4
从绘图 3d 图中抓取相机位置

我正在绘制 3D 图形并想要调整相机位置对我来说最好的方法是使用查看器根据需要缩放和旋转场景然后以 JSON 形式获取相机位置并将其放入我的脚本中该脚本生成图片以默认实现相同的位置根据这条推文 https twitter com
缓存反射属性 getter/setter 的最佳方法？

我知道反射可能会很昂贵我有一个经常获取设置属性的类我想到的一种方法是以某种方式缓存反射我不确定我是否应该缓存表达式或在这里真正做什么这就是我目前正在做的事情 typeof T GetProperty propName SetVal
如何使用 ie8 检测文本输入何时发生变化

我想检测文本输入何时发生变化我尝试了这些在 Firefox 中有效但在 ie 8 中无效 taskSearch bind input function alert this val taskSearch live input func
防止手动添加的库被ndk-build删除

我有一个项目正在重用预编译的本机库 libocr so 但我没有源文件我手动将库放在项目的 libs armeabi 上一切正常然后我需要为同一个项目创建一个新的本机库我将源代码与 Android mk 文件一样放在 jni 文件夹
itertool 中列表的条件笛卡尔积

我有四个清单 LISTA A1 A2 LISTB B1 C B2 D LISTC C1 C2 LISTD D1 D2 我想要得到的笛卡尔积LISTA and LISTB 然后根据 B 的值我想添加 C 的乘积或 D 的乘积 A1 B1 C
仅使用一个映射器的 Hadoop gzip 输入文件[重复]

这个问题在这里已经有答案了可能的重复为什么 hadoop 不能分割一个大文本文件然后使用 gzip 压缩分割的内容 https stackoverflow com questions 6511255 why cant hadoop s

仅使用一个映射器的 Hadoop gzip 输入文件[重复]

仅使用一个映射器的 Hadoop gzip 输入文件[重复] 的相关文章

随机推荐

热门标签