如何使用 oozie 安排 sqoop 操作

2023-12-08

我是 Oozie 的新手,只是想知道 - 如何使用 Oozie 安排 sqoop 作业。我知道 sqoop 操作可以添加为 Oozie 工作流程的一部分。但是我如何安排 sqoop 操作并让它每隔 2 分钟或每天晚上 8 点自动运行一次(只是一个 cron 作业)?


您需要创建包含开始、结束和频率的 coordinator.xml 文件。这是一个例子

<coordinator-app name="example-coord" xmlns="uri:oozie:coordinator:0.2"

             frequency="${coord:days(7)}"
             start="${start}"
             end=  "${end}"

             timezone="America/New_York">

  <controls>
    <timeout>5</timeout>
  </controls>

  <action>
    <workflow>
        <app-path>${wf_application_path}</app-path>
    </workflow>
  </action>
</coordinator-app>

然后创建 coordinator.properties 文件,如下所示:

host=namenode01
nameNode=hdfs://${host}:8020

wf_application_path=${nameNode}/oozie/deployments/example
oozie.coord.application.path=${wf_application_path}

start=2013-07-13T07:00Z
end=2013-09-31T23:59Z

将您的 coordinator.xml 文件上传到 hdfs,然后使用类似的内容提交您的协调器作业

oozie job -config coordinator.properties -run

检查文档http://oozie.apache.org/docs/3.3.2/CoordinatorFunctionalSpec.html它包含一些示例。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 oozie 安排 sqoop 操作 的相关文章

  • hue+oozie并发集群阻塞的调优经历

    hue oozie并发集群阻塞的调优经历 问题描述 使用hue oozie进行数据仓库开发 部署了大量workflow和并发任务 定时晚上集中时间执行时出现任务卡死状态 全部是oozie launcher的job任务 方案一 调大集群资源
  • 构建oozie:未知主机repository.codehaus.org

    我正在尝试构建从此处下载的 Oozie 4 2 0 http ftp cixug es apache oozie 4 2 0 oozie 4 2 0 tar gz 启动构建后 bin mkdistro sh DskipTests 我收到此错
  • Distcp - 容器运行超出物理内存限制

    我已经在 distcp 上苦苦挣扎了好几天 我发誓我已经用谷歌搜索得够多了 这是我的用例 USE CASE 我在某个位置有一个主文件夹 hdfs 根目录 有很多子目录 深度不固定 和文件 容量 200 000 个文件 30 GO 我只需要为
  • org.apache.hadoop.mapreduce.counters.LimitExceededException:计数器太多:121 max=120

    我正在运行一个 hadoop 作业 来自 oozie 它有很少的计数器和多输出 我收到如下错误 org apache hadoop mapreduce counters LimitExceededException 计数器太多 121 ma
  • 如何强制协调员行动以特定频率实现?

    我想知道是否有可能 如何强制协调员定期具体化或实例化工作流程 即使先前实例化的工作流程尚未完成 让我解释 我有一个简单的协调员 如下所示
  • 启动 Oozie 工作流程时出现问题

    我在启动 Oozie 工作流程时遇到问题 Config
  • Oozie Hive 动作挂起,心跳永远

    我试图通过我在 Hue 中创建的 Oozie 工作流程运行 Hive 操作 但该操作永远 心跳 并且不会执行 Hive SQL 我读过其他关于心跳永远的文章 但这篇文章似乎发生在不同的时刻 即在解析 SQL 语句之后 我检查了集群中每个节点
  • 通过 Oozie HDP 2.1 进行的作业未创建 job.splitmetainfo

    当尝试执行 sqoop 作业时 该作业将我的 Hadoop 程序作为 jar 文件传递 给 jarFiles参数 执行失败并出现以下错误 任何解决方案似乎都无法实现 具有相同 Hadoop 用户的其他作业正在成功执行 org apache
  • oozie java api提交作业,kerberos身份验证错误

    我有 hadoop 2 7 集群 oozie 4 0 1 以安全模式运行 使用 kerberos 一切都很好 我可以使用 cli 命令提交作业 如下所示 基尼特我的用户 oozie工作 ooziehttps 10 1 130 10 2100
  • Oozie 不断将旧版本的 httpcore jar 添加到类路径中

    我不断收到异常 因为 Oozie 将错误版本的 httpcore jar 添加到类路径中 我尝试了不同的选项 例如 oozie launcher mapreduce task classpath user precedence oozie
  • 是否可以只用一名协调员启动一些 oozie 工作流程?

    我不确定是否可以使用这个好工具来实现我想要的目的 我有很多工作流程 这些工作流程可以是依赖的 也可以是非依赖的 示例 workflow1 工作流程 xml job properties workflow2 工作流程 xml job prop
  • Sqoop 自由格式查询导致 Hue/Oozie 中的参数无法识别

    我正在尝试使用自由格式查询运行 sqoop 命令 因为我需要执行聚合 它作为 Oozie 工作流程通过 Hue 界面提交 以下是命令和查询的缩小版本 处理命令时 query 语句 用引号引起来 会导致查询的每个部分被解释为无法识别的参数 如
  • Oozie shell 操作未作为提交用户运行

    我编写了一个 Oozie 工作流程 它运行 BASH shell 脚本来执行一些配置单元查询并对结果执行一些操作 该脚本运行但在访问某些 HDFS 数据时抛出权限错误 提交 Oozie 工作流的用户具有权限 但脚本以纱线用户身份运行 是否可
  • oozie Sqoop 操作无法将数据导入到 hive

    我在执行 oozie sqoop 操作时遇到问题 在日志中我可以看到 sqoop 能够将数据导入到临时目录 然后 sqoop 创建 hive 脚本来导入数据 将临时数据导入配置单元时失败 在日志中我没有收到任何异常 下面是我正在使用的 sq
  • 如何跟踪 oozie 作业日志?

    我通常使用以下命令检查日志 oozie job oozie http localhost 8080 oozie log 14 20090525161321 oozie joe 这将打印所有内容 不过我只想看到最后几行 我如何追踪 Oozie
  • 我可以动态重命名oozie作业名称吗

    我们有一个 Hadoop 服务 其中有多个应用程序 我们需要通过重新执行相同的工作流程来处理每个应用程序的数据 这些计划在一天的同一时间执行 问题是 当这些作业运行时 很难知道作业正在为哪个应用程序运行 失败 成功 当然 我可以打开作业配置
  • JA017:无法查找已启动的 hadoop 作业 ID

    当我在Hue的Oozie编辑器中提交mapreduce作业时 如何解决这个问题 JA017 无法查找与操作 0000009 150711083342968 oozie root W mapreduce f660 关联的已启动 hadoop
  • 如何将 Jar 文件传递​​到 OOZIE shell 节点中的 shell 脚本

    您好 我在 oozie shell 操作工作流程中执行的脚本中运行 java 程序时遇到以下错误 Stdoutput 2015 08 25 03 36 02 636 INFO pool 1 thread 1 ProcessExecute j
  • Oozie SSH 操作

    Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令 我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了 这里真正的问题可能是什么 请指出解决方案 logs AUTH FAILE
  • 将 Spark 添加到 Oozie 共享库

    默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库 如果我想在 Oozie 上运行 Spark 作业 最好将 Spark lib jar 添加到 Oozie 的共享库 而不是将它们复制到应用程序

随机推荐