hadoop中的全局变量

2024-01-09

我的程序遵循迭代映射/归约方法。如果满足某些条件,则需要停止。无论如何,我是否可以设置一个可以分布在所有映射/归约任务中的全局变量,并检查全局变量是否达到完成条件。

像这样的东西。

While(Condition != true){

            Configuration conf = getConf();
            Job job = new Job(conf, "Dijkstra Graph Search");

            job.setJarByClass(GraphSearch.class);
            job.setMapperClass(DijkstraMap.class);
            job.setReducerClass(DijkstraReduce.class);

            job.setOutputKeyClass(IntWritable.class);
            job.setOutputValueClass(Text.class);

}

其中条件是一个全局变量,在每次映射/归约执行期间/之后修改。


每次运行 Map-Reduce 作业时,您都可以检查输出的状态、计数器中包含的值等,并在控制迭代的节点上决定是否需要再进行一次迭代。我想我不明白在你的场景中对全球状态的需求来自哪里。

更一般地说——在执行节点之间共享状态有两种主要方式(尽管应该注意的是共享状态是最好避免因为它限制了可扩展性)。

  1. 将文件写入其他节点可以读取的 HDFS(确保作业退出时文件被清理,并且推测执行不会导致奇怪的失败)。
  2. 使用ZooKeeper将一些数据存储在专用的ZK树节点中。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

hadoop中的全局变量 的相关文章

  • 将数据从 oracle 移动到 HDFS,处理并从 HDFS 移动到 Teradata

    我的要求是 将数据从 Oracle 移至 HDFS 处理HDFS上的数据 将处理后的数据移至 Teradata 还需要每 15 分钟执行一次整个处理 源数据量可能接近50GB 处理后的数据也可能相同 在网上搜索了很多之后 我发现 PRARO
  • HDFS 中的文件数量与块数量

    我正在运行单节点 hadoop 环境 当我跑的时候 hadoop fsck user root mydatadir block 我真的对它给出的输出感到困惑 Status HEALTHY Total size 998562090 B Tot
  • Hive:如何分解嵌入 CSV 文件中的 JSON 列?

    从 CSV 文件 带有标题和管道分隔符 中 我得到了以下两个内容 其中包含一个 JSON 列 内部有一个集合 如下所示 第一种情况 使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
  • 处理 oozie 工作流程中的循环

    我有一个 oozie 用例 用于检查输入数据可用性并根据数据可用性触发 MapReduce 作业 所以我编写了一个 shell 脚本来检查输入数据 并在 oozie 中为其创建了一个 ssh 操作 输入数据检查的重试次数和重试间隔应该是可配
  • 在 Windows 7 64 位中删除 Spark 临时目录时出现异常

    我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试 我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
  • Hadoop 推测任务执行

    在Google的MapReduce论文中 他们有一个备份任务 我认为这与Hadoop中的推测任务是一样的 推测任务是如何实现的 当我启动一项推测任务时 该任务是从一开始就作为较旧且缓慢的任务开始 还是从较旧的任务到达的位置开始 如果是这样
  • pyspark.sql.utils.AnalysisException:u'Path不存在

    我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业 而不是 S3 来存储我的文件 我在 hdfs user hive warehouse 有一个配置单元表 但当我的 Spark 作业运行时找不到它 我配置了 Spar
  • Apache hadoop 版本 2.0 与 0.23

    Hadoop 的版本和发行版太多 让我很困惑 我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始 根据这个blogpost http b
  • java.lang.ClassNotFoundException:找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

    我是 Spark 和 Kubernetes 世界的新手 我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像 我还为 Jup
  • hive 添加分区语句忽略前导零

    我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
  • java.io.IOException: EnsureRemaining: 仅剩余 0 个字节,尝试读取 1

    我在 giraph 中的自定义类方面遇到一些问题 我制作了 VertexInput 和 Output 格式 但总是收到以下错误 java io IOException ensureRemaining Only bytes remaining
  • HBase、Hadoop:如何估计 HBase 表或 Hadoop 文件系统路径的大小?

    我有多个 HBase 表 如何估计在 java 中使用的表的大致大小 一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹 所有表格信息 将在场 Hadoop 外壳 你可以检查使用hadoop fs du h path
  • 将 Spark 添加到 Oozie 共享库

    默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库 如果我想在 Oozie 上运行 Spark 作业 最好将 Spark lib jar 添加到 Oozie 的共享库 而不是将它们复制到应用程序
  • 是否可以使用 Java 读写 Parquet,而不依赖 Hadoop 和 HDFS?

    我一直在寻找这个问题的解决方案 在我看来 如果不引入对 HDFS 和 Hadoop 的依赖 就无法在 Java 程序中嵌入读写 Parquet 格式 它是否正确 我想在 Hadoop 集群之外的客户端计算机上进行读写 我开始对 Apache
  • 更改 Hadoop 中的数据节点数量

    如何改变数据节点的数量 即禁用和启用某些数据节点来测试可扩展性 说得更清楚一点 我有4个数据节点 我想一一实验1 2 3 4个数据节点的性能 是否可以只更新名称节点中的从属文件 临时停用节点的正确方法 创建一个 排除文件 这列出了您想要删除
  • Apache Spark 何时发生混洗?

    我正在优化 Spark 中的参数 并且想确切地了解 Spark 是如何对数据进行洗牌的 准确地说 我有一个简单的字数统计程序 并且想知道spark shuffle file buffer kb如何影响运行时间 现在 当我将此参数设置得非常高
  • 将 Apache Zeppelin 连接到 Hive

    我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来 我使用 zeppelin 0 7 3 所以没有 hive 解释器 只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
  • MongoDB 存储过程等效项

    我有一个包含商店列表的大型 CSV 文件 其中一个字段是邮政编码 我有一个名为 ZipCodes 的独立 MongoDB 数据库 它存储任何给定邮政编码的纬度和经度 在 SQL Server 中 我将执行一个名为 InsertStore 的
  • Hadoop-reducer 如何获取数据?

    据我所知 映射器为每个减速器生成 1 个分区 减速器如何知道要复制哪个分区 假设有 2 个节点运行用于字数统计程序的映射器 并且配置了 2 个缩减器 如果每个映射节点生成 2 个分区 并且两个节点中的分区都可能包含相同的单词作为键 那么减速
  • 使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

    使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦 一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie

随机推荐

  • C# 从邮件附件中获取文件名

    我有一个简单的 C 应用程序 用于发送 SMTP 电子邮件 使用 System Net Mail 类 发送 通过电子邮件发送 MailMessage 对象后 我想遍历附件列表并删除与这些附件关联的原始文件 但是我很难找到与每个附件关联的完整
  • Flutter Web 应用程序在部署到 Firebase 托管后返回空白页面

    我已成功将我的 flutter Web 应用程序部署到 Firebase 托管 但是 当我访问链接时返回空白页面 这是我的 firebase json database rules database rules json firestore
  • Flutter:如何避免 ListView 动态滚动(或改变其物理特性)

    我有一个ListView https api flutter dev flutter widgets ListView class html小部件 我想允许它基于某些逻辑可滚动或不可滚动 NeverScrollable滚动物理 https
  • 对向量进行排序 [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 当对递增时 如何按降序对向量对进行排序
  • 如何对包装字符串的枚举变体进行模式匹配? [复制]

    这个问题在这里已经有答案了 我有一个枚举 enum T A String 我想匹配此枚举的变量 但此代码不起作用 match t T A a gt println a T A b gt println b gt println someth
  • 角度材质 (8) S2591:找不到名称“require”

    我正在尝试将日期 时间记录到 javascript 控制台中 我收到的错误消息如下 是由下面的代码生成的 ETA 该代码确实有效 日期将发送到控制台 仅保留错误消息 Message src app kdc services customer
  • Dockerfile 生产/构建/调试/测试环境

    假设您有 Web 应用程序和一些工作流程执行器 http server 提供预构建资产文件 生产 构建器 从源代码编译 捆绑 js css html 部署 开发 调试器 构建器 动态地从源构建 添加 js 源映射 开发 selenium 运
  • SWIFT:如何加载本地图像远程 HTML

    目前我正在开发适用于 Android 和 iOS 的应用程序 这是一个简单的 webView 正在调用远程 URL 这工作得很好 但现在我在弄清楚如何拦截图像的加载方面遇到了问题 我正在努力实现以下目标 加载远程URL 拦截加载并检查图像
  • 反应式异常处理

    如何使用一个Mono error
  • 有哪些独立开发人员编程方法? [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 我可以在 Clojure 记录中创建可变状态吗?

    我正在考虑使用 Clojure 记录来映射到程序中不断变化的实体 它们是可变的吗 或者您是否需要在记录中使用额外的参考 我对此有点困惑 非常值得一看Rich Hickey 关于身份和状态的精彩视频 http www infoq com pr
  • 返回的日期格式为 mm/dd/yyyy hh:mm:ss AM/PM

    我对 sql 是个新手 我的公司只是让我很投入并说去做 因此 非常感谢任何帮助 我试图以 mm dd yyyy hh mm ss AM PM 的格式获取日期 例如 09 26 2014 11 04 54 AM 的日期 我尝试过使用代码 Se
  • 将此 pdf 保存在 ionic 上的缓存/本地存储中

    哈给大家 我按照本教程使用 pdfmake 生成的 pdf 创建模式视图 http gonehybrid com how to create and display a pdf file in your ionic app http gon
  • PHP 搜索多维数组中的值并获取相应的元素值[重复]

    这个问题在这里已经有答案了 我正在使用 PHP 我有一个多维数组 我需要搜索它以查看 键 的值是否存在 如果存在 则获取 字段 的值 这是我的数组 Array 0 gt Array key gt 31 field gt CONSTRUCTN
  • Owlready2动态类生成

    我正在尝试为 owlready2 本体动态创建一个类 文档建议使用以下代码行 NewClass types new class NewClassName SuperClass kwds namespace my ontology 就我而言
  • Laravel 4 - 读取配置文件

    如何从 laravel 读取配置文件 例如数据库连接 app config database php 我想要来自配置的 mysql 数据 对于一个包 你可以这样做 return Config get package group option
  • 如何防止GDB单步执行每一个函数

    我的 GDB 调试器会自动进入大多数函数 特别是我的外部库 标准库 这很烦人 因为我知道这些库比我的代码写得更好 如何才能阻止 GDB 这样做呢 有两种方法可以得到你想要的东西 一是使用next而不是step step将进入函数调用 但是n
  • Three.js计算充满屏幕所需的物体距离

    我见过很多关于如何缩放相机以使物体充满屏幕的问题 但我正在尝试移动物体以充满屏幕 我一直在尝试使用原始照片像素大小进行类似的操作 并且这些对象已缩放 var dist object originalSize height gt window
  • Arquillian:添加 beans.xml 会导致“ArquillianServletRunner 未找到”

    我正在使用 Arquillian 1 在 Eclipse 2 IDE 内的嵌入式 glassfish 环境中测试我的 J2EE App package test java import org jboss arquillian contai
  • hadoop中的全局变量

    我的程序遵循迭代映射 归约方法 如果满足某些条件 则需要停止 无论如何 我是否可以设置一个可以分布在所有映射 归约任务中的全局变量 并检查全局变量是否达到完成条件 像这样的东西 While Condition true Configurat