sqoop导入多个表

2024-01-09

我们正在使用 Cloudera CDH 4,并且能够按预期将表从 Oracle 数据库导入到我们的 HDFS 仓库中。问题是我们的数据库中有数十万张表,而 sqoop 一次只支持导入一张表。

有哪些选项可用于将多个表导入 HDFS 或 Hive?例如,一次将 200 个表从 Oracle 导入 HDFS 或 Hive 的最佳方式是什么?

到目前为止,我看到的唯一解决方案是为每个表导入创建一个 sqoop 作业,然后单独运行它们。由于 Hadoop 设计用于处理大型数据集,因此似乎应该有更好的方法。


您可以使用“import-all-tables”选项一次性将所有表加载到 HDFS 中。

sqoop import-all-tables --connect jdbc:mysql://localhost/sqoop --username root --password hadoop  --target-dir '/Sqoop21/AllTables'

如果我们想排除一些表加载到 hdfs 中,我们可以使用“ --exclude-tables ”选项

Ex:

sqoop import-all-tables --connect jdbc:mysql://localhost/sqoop --username root --password hadoop  --target-dir '/Sqoop21/AllTables'  --exclude-tables <table1>,<tables2>

如果我们想存储在指定的目录中,那么你可以使用“ --warehouse-dir ”选项

Ex:

sqoop import-all-tables --connect jdbc:mysql://localhost/sqoop --username root --password hadoop --warehouse-dir '/Sqoop'
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

sqoop导入多个表 的相关文章

  • 是否值得购买 Mahout in Action 以跟上 Mahout 的速度,或者还有其他更好的来源吗?

    我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是 我很难理解这本书的价值 并且认为它是一本曼宁早期访问计划 h
  • Hadoop安装问题:

    我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程 不幸的是 当我运行全部启动
  • HIVE 执行错误,从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1

    我在创建配置单元数据库时收到以下错误 FAILED 执行错误 从 org apache hadoop hive ql exec DDLTask 返回代码 1 com facebook fb303 FacebookService Iface
  • http://localhost:50070/ 的 hadoop Web UI 不起作用

    命令 jps 显示以下详细信息 第5144章 5464 节点管理器 5307 资源管理器 5800 Jps 显然namenode和datanode丢失了 网络用户界面位于http 本地主机 50070 http localhost 5007
  • R+Hadoop:如何从HDFS读取CSV文件并执行mapreduce?

    在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
  • Namenode高可用客户端请求

    谁能告诉我 如果我使用java应用程序请求一些文件上传 下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里 我的意思是客户端如何知道哪个名称节点处于活动状态 如果您提供一些工作流程类型图或详细解释请求步骤 从开始到结束
  • 如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

    我想转换String反对IntWritableHadoop 中的对象 任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
  • 遍历 ArrayWritable - NoSuchMethodException

    我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误 我无法通过 Google 回答该错误 我正在使用 ArrayWritable 制作一个基本程序 但是当我运行它时 在Reduce过程中出现以下错误 java lang Runti
  • 如何通过sparkSession向worker提交多个jar?

    我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
  • 在 HIVE 中,使用 COALESCE 将 Null 值替换为相同的列值

    我想用同一列中的值替换特定列的空值我想得到结果 我在下面尝试过 select d day COALESCE val LAST VALUE val TRUE OVER ORDER BY d day ROWS BETWEEN UNBOUNDED
  • 带有安全 Kafka 抛出的 Spark 结构化流:无权访问组异常

    为了在我的项目中使用结构化流 我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成 我正在运行下面的示例代码来检查集成 我能够在 Spark 本地模式下的
  • Hive - 线程安全的自动递增序列号生成

    我遇到一种情况 需要将记录插入到特定的 Hive 表中 其中一列需要是自动递增的序列号 即在任何时间点都必须严格遵循 max value 1 规则 记录从许多并行的 Hive 作业插入到这个特定的表中 这些作业每天 每周 每月批量运行 现在
  • Hive“添加分区”并发

    我们有一个外部 Hive 表 用于处理原始日志文件数据 这些文件每小时一次 并按日期和源主机名分区 目前 我们正在使用简单的 python 脚本导入文件 这些脚本每小时触发几次 该脚本根据需要在 HDFS 上创建子文件夹 从临时本地存储复制
  • 使用 Hiveql 循环

    我正在尝试合并 2 个数据集 例如 A 和 B 数据集 A 有一个变量 Flag 它有 2 个值 我并没有只是将两个数据合并在一起 而是尝试根据 标志 变量合并两个数据集 合并代码如下 create table new data as se
  • 在映射器的单个输出上运行多个减速器

    我正在使用地图缩减实现左连接功能 左侧有大约 6 亿条记录 右侧有大约 2300 万条记录 在映射器中 我使用左连接条件中使用的列来创建键 并将键值输出从映射器传递到减速器 我遇到性能问题 因为两个表中的值数量都很高的映射器键很少 例如分别
  • 计算 pyspark df 列中子字符串列表的出现次数

    我想计算子字符串列表的出现次数 并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
  • YARN UNHEALTHY 节点

    在我们的 YARN 集群已满 80 的情况下 我们看到一些纱线节点管理器被标记为不健康 在深入研究日志后 我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
  • 纱线上的火花,连接到资源管理器 /0.0.0.0:8032

    我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点 当然都在linux机器上 我在idea IDE中以spark独立模式运行spark程序 它运行成功
  • HDFS:使用 Java / Scala API 移动多个文件

    我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件 例如 我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
  • 如何从hdfs读取文件[重复]

    这个问题在这里已经有答案了 我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行 而不将 mr txt 文件下载到本地 但我无法从 hdfs 打开 mr tx

随机推荐

  • 我需要一些指导来编写哈希函数来对大约 160,000 个字符串进行排序

    我的老师把这个甩给了我们 并告诉我们我们只需要谷歌一下如何编写哈希函数 我对此很没有方向 我们为类编写了一个基本的哈希表模板 但我有一个项目需要将大约 160 000 个字符串排序到至少有 500 个存储桶的表中 为了速度我想做更多 我只是
  • 如何生成一个好的随机种子传递给 srand()?

    我正在编写一个 C 程序 需要创建一个临时文件供其内部使用 我想通过运行多个进程来允许程序并发执行 因此临时文件名需要随机化 这样每个生成的进程都会生成一个唯一的临时文件名供自己使用 我使用 rand 为文件名的一部分生成随机字符 因此我需
  • Playstore 提示“声明敏感权限”

    我们的 Android Manifest 没有任何 SMS 权限 我们一直这样做 直到 4 版本发布回来 但 Playstore 仍然提示我们填写敏感权限声明 内容如下 先前声明的权限 3个权限 android permission REC
  • 将文本字段完成限制为 Intellij Plugin 中的一组特定段

    根据此处的答案 我能够获得代码完成以适用于我的插件中的文本字段 IntelliJ 插件中具有标准 PsiElement 自动完成功能的文本字段 https stackoverflow com questions 59443789 text
  • Web应用前端和后端的误区

    我需要一些指导 建议 我决定构建一个 Web 应用程序 但我很难将所有组件组合在一起 我过去制作过基本的网站 但已经忘记了很多 我过去学过 JavaScript 和 Java 但我有点生疏 所以如果你决定回复 请把我当作一个对这一切都不熟悉
  • 如何将文件从一个目录移动到另一个目录?

    我是 python 初学者 我想将一些文件从一个目录移动到另一个目录 我现在必须使用一些模块 例如 Os 和 Shutil 我写了这段代码 但它返回一个错误 import shutil import os source os listdir
  • 如何使用 CSS 模块在 React 中设置子组件的样式

    我正在将 React 与 SASS 和 CSS 模块结合使用 如何在不传递新的 ClassName 或类似名称的情况下设置子组件的样式 对于前 我想在子组件上定位或执行一些样式 而不必给出特定的类 就像您所做的那样p span例如 所有跨度
  • 如何将 epub 文件下载到本地 iPhone 上?

    我想通过传递文件的 url 将 epub 文件下载到本地应用程序中 http www jedisaber com eBooks books sample epub http www jedisaber com eBooks books sa
  • 从 AsyncTask 检索对象值

    我正在创建异步任务 检索字符串数据 View OnClickListener btnClk new View OnClickListener Override public void onClick View v if btnGetData
  • 创建大于 23k x 23k 的巨大高分辨率位图

    我想创建一个巨大的分辨率位图图像 以便将其加载到内存中并根据用户手势进行转换 我注意到限制为new Bitmap int32 int32 大约是 23000 但我需要 1159480 x 45920 位深度为 32 有人可以帮助我吗 或者这
  • 如何在 tkinter 中取消选择 ttk.Treeview 中的行

    一旦我点击进入ttk Treeview 并选择一行 我可以单击另一行 但我无法UNSELECT所有行中 始终至少会选择 1 行 有没有一种聪明的方法可以取消选择最后选定的行 更改我使用的变量名称treeview ttk Treeview 并
  • Docker API 无法应用 json 过滤器

    根据https docs docker com engine reference api docker remote api v1 24 list tasks https docs docker com engine reference a
  • Rails 5.1 API - 如何允许嵌套 JSON 对象属性的参数

    关于这个主题至少有 10 个问题 但没有一个问题能回答这个特定问题 许多问题都与 Rails 表单相关 例如this https stackoverflow com questions 32529757 how can i get stro
  • 我只需要“身份网址”吗? - 开放ID

    我只是想知道我是否需要的只是身份 url 以便理论上将 OpenID 帐户附加到用户的帐户 我的身份网址如下所示 https www google com accounts o8 id id YGnyuGHMUmhUI98nuhUMhu98
  • 如何使用 Yarn v3 安装本地包?

    我尝试使用 Yarn v3 安装本地包 结果撞到了墙上 这是我尝试过的所有事情 Run yarn add file hardhat packager Run yarn add hardhat packager 手动添加 hardhat pa
  • 为什么 constexpr 上下文会使编译器失败,而它却无法完美优化?

    我玩过constexpr并实现了一些有趣的行为 在某些情况下添加constexpr在函数前面启用GCC尝试更加努力地优化 这会导致完全优化函数并仅提供计算值 然而 从一个调用这样一个完全优化的函数constexprcontext 会导致错误
  • 如何在 iOS Swift 中获取应用程序的 CFBundleURLSchemes

    我制作了一个演示项目 App1 其中添加了一个按钮 该按钮会将我重定向到已安装的应用程序 假设 App2 fitbit 我已经阅读了很多教程 并且基本上通过第二个答案了解了如何做到这一点 此应用程序不允许查询方案 cydia IOS9 错误
  • 在 ng-repeat 之后执行 jQuery 函数

    在此先感谢您的帮助 我正在用这个标签管理器 http welldonethings com tags manager在我的网络应用程序中 jQuery 函数在此之前工作正常
  • 具有多个模板参数包的部分模板专业化

    继续我的可变参数模板世界之旅 https stackoverflow com q 4691657 20984 我又遇到了一个问题 假设有以下模板类 template lt typename T gt struct foo default i
  • sqoop导入多个表

    我们正在使用 Cloudera CDH 4 并且能够按预期将表从 Oracle 数据库导入到我们的 HDFS 仓库中 问题是我们的数据库中有数十万张表 而 sqoop 一次只支持导入一张表 有哪些选项可用于将多个表导入 HDFS 或 Hiv