sqoop导入多个表

2024-01-09

我们正在使用 Cloudera CDH 4，并且能够按预期将表从 Oracle 数据库导入到我们的 HDFS 仓库中。问题是我们的数据库中有数十万张表，而 sqoop 一次只支持导入一张表。

有哪些选项可用于将多个表导入 HDFS 或 Hive？例如，一次将 200 个表从 Oracle 导入 HDFS 或 Hive 的最佳方式是什么？

到目前为止，我看到的唯一解决方案是为每个表导入创建一个 sqoop 作业，然后单独运行它们。由于 Hadoop 设计用于处理大型数据集，因此似乎应该有更好的方法。

您可以使用“import-all-tables”选项一次性将所有表加载到 HDFS 中。

sqoop import-all-tables --connect jdbc:mysql://localhost/sqoop --username root --password hadoop  --target-dir '/Sqoop21/AllTables'

如果我们想排除一些表加载到 hdfs 中，我们可以使用“ --exclude-tables ”选项

Ex:

sqoop import-all-tables --connect jdbc:mysql://localhost/sqoop --username root --password hadoop  --target-dir '/Sqoop21/AllTables'  --exclude-tables <table1>,<tables2>

如果我们想存储在指定的目录中，那么你可以使用“ --warehouse-dir ”选项

Ex:

sqoop import-all-tables --connect jdbc:mysql://localhost/sqoop --username root --password hadoop --warehouse-dir '/Sqoop'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

hive

HDFS

SQOOP

sqoop导入多个表的相关文章

是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
HIVE 执行错误，从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1

我在创建配置单元数据库时收到以下错误 FAILED 执行错误从 org apache hadoop hive ql exec DDLTask 返回代码 1 com facebook fb303 FacebookService Iface
http://localhost:50070/ 的 hadoop Web UI 不起作用

命令 jps 显示以下详细信息第5144章 5464 节点管理器 5307 资源管理器 5800 Jps 显然namenode和datanode丢失了网络用户界面位于http 本地主机 50070 http localhost 5007
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

我想转换String反对IntWritableHadoop 中的对象任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
在 HIVE 中，使用 COALESCE 将 Null 值替换为相同的列值

我想用同一列中的值替换特定列的空值我想得到结果我在下面尝试过 select d day COALESCE val LAST VALUE val TRUE OVER ORDER BY d day ROWS BETWEEN UNBOUNDED
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
使用 Hiveql 循环

我正在尝试合并 2 个数据集例如 A 和 B 数据集 A 有一个变量 Flag 它有 2 个值我并没有只是将两个数据合并在一起而是尝试根据标志变量合并两个数据集合并代码如下 create table new data as se
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx

随机推荐

我需要一些指导来编写哈希函数来对大约 160,000 个字符串进行排序

我的老师把这个甩给了我们并告诉我们我们只需要谷歌一下如何编写哈希函数我对此很没有方向我们为类编写了一个基本的哈希表模板但我有一个项目需要将大约 160 000 个字符串排序到至少有 500 个存储桶的表中为了速度我想做更多我只是
如何生成一个好的随机种子传递给 srand()？

我正在编写一个 C 程序需要创建一个临时文件供其内部使用我想通过运行多个进程来允许程序并发执行因此临时文件名需要随机化这样每个生成的进程都会生成一个唯一的临时文件名供自己使用我使用 rand 为文件名的一部分生成随机字符因此我需
Playstore 提示“声明敏感权限”

我们的 Android Manifest 没有任何 SMS 权限我们一直这样做直到 4 版本发布回来但 Playstore 仍然提示我们填写敏感权限声明内容如下先前声明的权限 3个权限 android permission REC
将文本字段完成限制为 Intellij Plugin 中的一组特定段

根据此处的答案我能够获得代码完成以适用于我的插件中的文本字段 IntelliJ 插件中具有标准 PsiElement 自动完成功能的文本字段 https stackoverflow com questions 59443789 text
Web应用前端和后端的误区

我需要一些指导建议我决定构建一个 Web 应用程序但我很难将所有组件组合在一起我过去制作过基本的网站但已经忘记了很多我过去学过 JavaScript 和 Java 但我有点生疏所以如果你决定回复请把我当作一个对这一切都不熟悉
如何将文件从一个目录移动到另一个目录？

我是 python 初学者我想将一些文件从一个目录移动到另一个目录我现在必须使用一些模块例如 Os 和 Shutil 我写了这段代码但它返回一个错误 import shutil import os source os listdir
如何使用 CSS 模块在 React 中设置子组件的样式

我正在将 React 与 SASS 和 CSS 模块结合使用如何在不传递新的 ClassName 或类似名称的情况下设置子组件的样式对于前我想在子组件上定位或执行一些样式而不必给出特定的类就像您所做的那样p span例如所有跨度
如何将 epub 文件下载到本地 iPhone 上？

我想通过传递文件的 url 将 epub 文件下载到本地应用程序中 http www jedisaber com eBooks books sample epub http www jedisaber com eBooks books sa
从 AsyncTask 检索对象值

我正在创建异步任务检索字符串数据 View OnClickListener btnClk new View OnClickListener Override public void onClick View v if btnGetData
创建大于 23k x 23k 的巨大高分辨率位图

我想创建一个巨大的分辨率位图图像以便将其加载到内存中并根据用户手势进行转换我注意到限制为new Bitmap int32 int32 大约是 23000 但我需要 1159480 x 45920 位深度为 32 有人可以帮助我吗或者这
如何在 tkinter 中取消选择 ttk.Treeview 中的行

一旦我点击进入ttk Treeview 并选择一行我可以单击另一行但我无法UNSELECT所有行中始终至少会选择 1 行有没有一种聪明的方法可以取消选择最后选定的行更改我使用的变量名称treeview ttk Treeview 并
Docker API 无法应用 json 过滤器

根据https docs docker com engine reference api docker remote api v1 24 list tasks https docs docker com engine reference a
Rails 5.1 API - 如何允许嵌套 JSON 对象属性的参数

关于这个主题至少有 10 个问题但没有一个问题能回答这个特定问题许多问题都与 Rails 表单相关例如this https stackoverflow com questions 32529757 how can i get stro
我只需要“身份网址”吗？ - 开放ID

我只是想知道我是否需要的只是身份 url 以便理论上将 OpenID 帐户附加到用户的帐户我的身份网址如下所示 https www google com accounts o8 id id YGnyuGHMUmhUI98nuhUMhu98
如何使用 Yarn v3 安装本地包？

我尝试使用 Yarn v3 安装本地包结果撞到了墙上这是我尝试过的所有事情 Run yarn add file hardhat packager Run yarn add hardhat packager 手动添加 hardhat pa
为什么 constexpr 上下文会使编译器失败，而它却无法完美优化？

我玩过constexpr并实现了一些有趣的行为在某些情况下添加constexpr在函数前面启用GCC尝试更加努力地优化这会导致完全优化函数并仅提供计算值然而从一个调用这样一个完全优化的函数constexprcontext 会导致错误
如何在 iOS Swift 中获取应用程序的 CFBundleURLSchemes

我制作了一个演示项目 App1 其中添加了一个按钮该按钮会将我重定向到已安装的应用程序假设 App2 fitbit 我已经阅读了很多教程并且基本上通过第二个答案了解了如何做到这一点此应用程序不允许查询方案 cydia IOS9 错误
在 ng-repeat 之后执行 jQuery 函数

在此先感谢您的帮助我正在用这个标签管理器 http welldonethings com tags manager在我的网络应用程序中 jQuery 函数在此之前工作正常
具有多个模板参数包的部分模板专业化

继续我的可变参数模板世界之旅 https stackoverflow com q 4691657 20984 我又遇到了一个问题假设有以下模板类 template lt typename T gt struct foo default i
sqoop导入多个表

我们正在使用 Cloudera CDH 4 并且能够按预期将表从 Oracle 数据库导入到我们的 HDFS 仓库中问题是我们的数据库中有数十万张表而 sqoop 一次只支持导入一张表有哪些选项可用于将多个表导入 HDFS 或 Hiv

sqoop导入多个表

sqoop导入多个表 的相关文章

随机推荐

热门标签

sqoop导入多个表的相关文章