使用 MapReduce 查找大整数集的中值

2023-12-02

是否有一种快速算法可以在 MapReduce 框架上运行以从巨大的整数集中找到中位数？

我就是这样做的。这是顺序快速选择的一种并行版本。（某些映射/归约工具可能无法让您轻松完成任务......）

选择输入集中的一个任意小块。按顺序对此进行排序。我们将并行地将它们用作一整套枢轴。调用这个数组pivots，并设其大小为k.

按如下方式执行映射/归约：对于每个值x在输入集中，二分查找查找x的位置相对于pivots;调用这个位置bucket(x)。这是一个介于0 and k。 reduce步骤是统计每个桶中元素的数量；定义bucket[b]为x with bucket(x) = b.

中位数必须位于“中位数桶”中。选出该中值桶中的所有值，并使用传统的顺序选择算法来查找具有正确索引的元素。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MapReduce

使用 MapReduce 查找大整数集的中值的相关文章

在mongo中执行优先级查询

样本文件 name John age 35 address join month 3 的员工优先级为 1 地址包含字符串 Avenue 的员工优先级为 2 地址包含字符串 Street 的员工优先级为 3 地址包含字符串 Road 的员工优
如何从mapreduce中的reducer输出中删除r-00000扩展

我能够正确重命名我的减速器输出文件但 r 00000 仍然存在我在我的减速器类中使用了 MultipleOutputs 这是详细信息不确定我缺少什么或我需要做什么额外的事情 public class MyReducer extends
JA017：无法查找已启动的 hadoop 作业 ID

当我在Hue的Oozie编辑器中提交mapreduce作业时如何解决这个问题 JA017 无法查找与操作 0000009 150711083342968 oozie root W mapreduce f660 关联的已启动 hadoop
使用 Google AppEngine MapReduce 处理所有记录后，如何从计数器获取值？

使用 Google AppEngine MapReduce 处理所有记录后如何从计数器获取值或者我在这里错过了计数器的用例示例代码来自http code google com p appengine mapreduce wiki Us
在 Hadoop MapReduce 中解析 PDF 文件

我必须在 Hadoop 的 MapReduce 程序中解析 HDFS 中的 PDF 文件所以我从 HDFS 获取 PDF 文件为输入分割它必须被解析并发送到 Mapper 类为了实现这个输入格式我已经经历过这个link http cod
为什么map任务总是运行在单节点上

我有一个具有 4 个节点的完全分布式 Hadoop 集群当我将作业提交给 Jobtracker 时 Jobtracker 认为 12 个映射任务对我的工作来说很酷但奇怪的事情发生了这 12 个映射任务始终在单个节点上运行而不是在整个
FAILED 错误：java.io.IOException：所有收集器的初始化失败

我在运行 MapReduce WordCount 作业时遇到一些错误错误 java io IOException 所有收集器的初始化失败的最后一个收集器中的错误是 class wordcount wordmapper at org a
Hadoop 性能

我安装了hadoop 1 0 0并尝试了字数统计示例单节点集群完成时间为 2 分 48 秒然后我尝试了标准的 Linux 字数统计程序该程序在同一组 180 kB 数据上运行只需 10 毫秒是我做错了什么还是 Hadoop 非
映射减少计数示例

我的问题是关于mapreduce programming in java 假设我有 WordCount java 示例一个标准mapreduce program 我希望map函数收集一些信息并返回形成如下的reduce函数map
使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado
mongodb 聚合随机化（shuffle）结果

我正在浏览一堆 mongo 文档但找不到洗牌或随机化结果内容的可能性有没有特别是对于聚合框架本身来说实际上并没有任何本地方法因为还没有可用的运算符来执行诸如生成随机数之类的操作因此无论您可能投射一个字段进行排序的任何匹配都不
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
mongodb - 检索数组子集

看似简单的任务对我来说是一个挑战我有以下 mongodb 结构 services TCP80 data status 1 delay 3 87 ts 1308056460 status 1 delay 2 83 ts 1308058080
RavenDB：为什么我会在此多重映射/归约索引中获得字段空值？

受到 Ayende 文章的启发https ayende com blog 89089 ravendb multi maps reduce indexes https ayende com blog 89089 ravendb multi m
Riak 在 MapReduce 查询中失败。使用哪种配置？

我正在与 riak riak js 结合开发一个 nodejs 应用程序并遇到以下问题运行此请求 db mapreduce add logs run 正确返回存储在存储桶日志中的所有 155 000 个项目及其 ID logs 1GXt
CouchDB 通过三个索引键进行查询和过滤

我目前正在尝试按具有三个值的键进行排序和排序但让我们从文档结构开始 id DOCIDGOESHERE01 type MESSAGE date 2011 08 24 06 49 02 author USERIDGOESHERE01 rece
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
为什么在我的例子中 For 循环比 Map、Reduce 和 List 理解更快

我编写了一个简单的脚本来测试速度这就是我发现的结果实际上 for 循环在我的例子中是最快的这真的让我感到惊讶请查看下面正在计算平方和这是因为它在内存中保存列表还是有意为之谁能解释一下这一点 from functools imp
如何在hadoop mapreduce/yarn中设置VCORES？

以下是我的配置 mapred site xml map mb 4096 opts Xmx3072m reduce mb 8192 opts Xmx6144m yarn site xml resource memory mb 40GB min
从机上的 DiskErrorException - Hadoop 多节点

我正在尝试处理来自 hadoop 的 XML 文件在对 XML 文件调用字数统计作业时出现以下错误 13 07 25 12 39 57 INFO mapred JobClient Task Id attempt 201307251234

随机推荐

在 C# 中使用正则表达式突出显示单词列表

我有一些包含缩写的网站内容我有该网站公认的缩写列表及其解释我想创建一个正则表达式它允许我用一些标记替换内容中找到的所有可识别的缩写例如内容 This is just a little test of the memb to see
使选定的文本视图字符串变为粗体、斜体、下划线，就像 iOS 的本机“Notes”应用程序一样

是否有任何帮助可以使选定的文本字符串视图变为粗体斜体下划线就像 iOS 的本机 Notes 应用程序一样请给我有用的链接我厌倦了一整天的寻找非常感谢我附上了我的代码使属性字符串粗体和斜体都像iPhone Notes 的本机应
java：在 Mac OsX 上禁用 TrayIcon 右键单击

我正在尝试开发一个由系统托盘图标提供的 Mac OsX 应用程序因此在第一次尝试使用最简单的代码来实现它后我注意到 mac osX 10 8 上的每个应用程序托盘图标系统和用户应用程序都允许通过左键和右键单击激活相对弹出菜单但在我
初始化惰性实例时将参数传递给构造函数

据我所知如果声明了一个变量Lazy 然后当我们使用Value财产我需要传递一些参数给它Lazy实例但找不到正确的语法这不是我的设计我正在使用 MEF 并且ExportFactory 它返回我Lazy我的零件的实例我的部件有构造函数
在经典 ASP/VBScript 应用程序中通过 LDAP 访问员工 ID

我有一个旧的 ASP VBScript 应用程序我正在维护升级它它目前使用旧的已弃用的方式来收集配置文件信息如下所示 strNTUser Request ServerVariables AUTH USER strNTUser re
将 TTF 字体添加到 PhoneGap 应用程序

我遵循了这一点 http forrst com posts Using custom fonts on iPad and iPhone with Phone u2P 我无法在 iPhone 上显示该字体我不确定的是在哪里添加向您的 i
如何使用 __get() 在多级对象属性访问中返回 null？

如何使用 get 在访问如下情况的多级对象属性中返回 null 例如这是我的课程 class property public function get name return isset this gt name this gt name
掌握 Javascript Function.bind()

function def console log this x var f def bind x 777 f prints 777 The bind创建一个函数f这与def 除了在f this被设定为 x 777 是否可以访问该对象f被绑定
将分号分隔符 SQL 拆分为行[重复]

这个问题在这里已经有答案了只是想寻求帮助我试图用分号作为分隔符来分割分隔值逗号无法替换为分号因为有些值带有逗号 ID Value 1 A B C D E F 变换为 ID Value 1 A B 1 C 1 D 1 E F 我尝试调
提升精神规则可以参数化吗

在我的 Boost Spirit 语法中我希望有一条规则可以做到这一点规则 noCaseLit no case lit KEYWORD 但对于自定义关键字我可以这样做 gt gt noCaseLit SomeSpecialKeywor
Wat 执行“vkCreateSwapchainKHR：内部可绘制对象创建失败”。方法

我总是卡在交换链的创建上我不知道为什么我启用了验证层我得到的最好的答案是 vkCreateSwapchainKHR 内部绘图创建失败我有一张 Nvidia GTX960 卡我在它上面运行了一些 vulkan 样本所以它必须支持
NodeJS 语法错误：意外的标记“.”

Node JS 和 NPM 初学者以下代码引发语法错误无法找出问题所在节点版本 v12 18 3 NPM版本 7 15 1 Error LayerObj options displayName undefined SyntaxErro
用“(”和“)”分割字符串并保留分隔符（Python）[重复]

这个问题在这里已经有答案了假设我有这个字符串 s 123 45 678 我怎样才能得到这个列表 l 123 45 678 如果你只对 or then str partition就足够了由于您有多个分隔符并且您想保留它们因此您可以使用r
如何交错向量的项以用 R 中的先前值替换 NA [重复]

这个问题在这里已经有答案了我有这个向量myvec 我想删除所有 NA 并用前面的项目替换它们并得到结果 myvec c AMLM12001KP NA 1114002 NA 1121501 NA 1231401 NA NA NA resul
在 SQL Server 2008 中，关系是否会使查询更快？

例如如果我有一个BlogPosts表和一个PostCategory表其中BlogPosts表有 FK 字段PostCategoryId 关系会使查询更快还是更多地涉及数据质量当涉及到连接表时怎么办采取PostCategoryId
使用 Spinner 时禁用 setSystemUIVisibility 全屏

我在用 View root findViewById android R id content root setSystemUiVisibility View SYSTEM UI FLAG FULLSCREEN 使我的应用程序全屏显示它工
Xcode 6 - 从命令行启动模拟器

我想从命令行启动 iPhone 模拟器到目前为止我一直在使用下面的命令 Applications Xcode app Contents Developer Platforms iPhoneSimulator platform Develo
如何将数组作为参数列表传递

Ruby s 文档将方法签名显示为 start with prefixes true or false 对我来说这看起来像一个数组但事实并非如此您可以传递单个字符串或各种字符串作为参数如下所示 hello start with hea
加载 rJava 库时“无法加载共享对象”

我必须在 R 上加载 Excel 文件 xlsx 但是 library xlsx 错误 rJava 的包或命名空间加载失败 onLoad 在 rJava 的 loadNamespace 中失败详细信息调用 inDL x as 逻辑本地
使用 MapReduce 查找大整数集的中值

是否有一种快速算法可以在 MapReduce 框架上运行以从巨大的整数集中找到中位数我就是这样做的这是顺序快速选择的一种并行版本某些映射归约工具可能无法让您轻松完成任务选择输入集中的一个任意小块按顺序对此进行排序我们将并行地将

使用 MapReduce 查找大整数集的中值

使用 MapReduce 查找大整数集的中值 的相关文章

随机推荐

热门标签

使用 MapReduce 查找大整数集的中值的相关文章