Sqoop - 数据分割

2024-02-22

Sqoop 能够使用以下方式从多个表导入数据--query子句，但不清楚是否能够导入以下查询。

按部门号从员工组中选择部门号、平均工资

另一个问题是

sqoop import --connect jdbc:mysql://myserver:1202/ --username=u1 --password=p1 --query '从 emp 中选择 *，其中 empid

$CONDITIONS 和 split-by 用于执行并行处理，或者我们可以说有效地导入数据。前者根据条件分割行，后者在主键上使用最小和最大逻辑。这两个有什么区别($CONDITIONS, split-by)。如果我们在同一个 sqoop 语句中使用这两个子句，哪个子句将获得优先级？

谢谢....

你们的理解有些差距。

首先，并行度由-m <n> or --num-mappers <n>。默认值为--num-mappers is 4.

Second, --split-by <column-name>，将根据列名称拆分您的任务。

Third, $CONDITIONS，sqoop内部使用它来实现这个分割任务。

Example，您发起了一个查询：

sqoop import --connect jdbc:mysql://myserver:1202/ --username u1 --password p1 --query 'select * from emp where $CONDITIONS' --split-by empId --target-dir /temp/emp -m 4

比如说，我的 empId 从 1 到 100 均匀分布。

现在，sqoop 将采取--split-by列并找到它的max and min使用查询的值：

SELECT MIN(empId), MAX(empId) FROM (Select * From emp WHERE (1 = 1) ) t1

看到替换了$CONDITIONS with (1 = 1).

在我们的例子中，最小值、最大值分别为 1 和 100。

由于映射器的数量为 4，sqoop 会将我的查询分为 4 部分。

创建下限“empId >= 1”和上限“empId

创建下限“empId >= 25”和上限“empId

创建下限“empId >= 50”和上限“empId

创建下限“empId >= 75”和上限“empId

Now $CONDITIONS将再次出现在画面中。它被上面的范围查询取代。

第一个映射器将像这样触发查询：

Select * From emp WHERE empId >= 25' AND 'empId < 50

其他 3 个映射器依此类推。

所有映射器的结果被聚合并写入最终的 HDFS 目录。

关于您的查询：

select deptid, avg(salary) from emp group by deptid

你将指定

--query 'select deptid, avg(salary) from emp group by deptid where $CONDITIONS'

它将首先转换为

select deptid, avg(salary) from emp group by deptid where (1 = 0)

获取列元数据。

我相信这个查询不会在 RDBMS 中运行。尝试上面的查询（having Where (1 = 0)）直接在Mysql中。

因此，您将无法使用此查询来使用 Sqoop 获取数据。

Sqoop 用于更简单的 SQL 查询。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

SQOOP

Sqoop - 数据分割的相关文章

如果没有可用的指定分区路径，SPARK SQL 会失败

我在 EMR 中使用 Hive Metastore 我可以通过 HiveSQL 手动查询表但是当我在 Spark Job 中使用同一个表时它说输入路径不存在 s3 导致 org apache hadoop mapred InvalidI
使用 Hive 自定义输入格式

Update 好吧事实证明以下不起作用的原因是因为我使用的是较新版本的InputFormat API import org apache hadoop mapred这是旧的与import org apache hadoop mapredu
将文件夹名称添加到输出 Pig Latin

我在 HDFS 中有下一个目录结构 logs folder 2021 03 01 log1 log2 log3 2021 03 02 log1 log2 2021 03 03 log1 log2 日志由文本数据组成数据中没有日期因为它已
Hive 表的默认分隔符是什么？

如果我们在创建表时不提及任何分隔符 hive 是否有默认分隔符创建表日志 ts bigint 行字符串按 dt 字符串国家地区字符串分区默认分隔符 001 如果创建hive表时没有设置您可以将其更改为其他分隔符例如 hive
线程“main”中出现异常java.lang.UnsupportedClassVersionError，不支持的major.minor版本52.0

我尝试在 hadoop 1 0 4 上运行 WordCount 示例但收到以下错误 Exception in thread main java lang UnsupportedClassVersionError WordCount Uns
是否可以直接从文件加载镶木地板表？

如果我有一个二进制数据文件可以转换为 csv 格式有什么方法可以直接从中加载镶木地板表吗许多教程显示将 csv 文件加载到文本表然后从文本表加载到镶木地板表从效率的角度来看是否可以像我已有的那样直接从二进制文件加载镶木地板表理
Spark 2.0 弃用了“DirectParquetOutputCommitter”，没有它如何生活？

最近我们从 HDFS 上的 EMR gt S3 上的 EMR 启用了一致视图的 EMRFS 迁移我们意识到 Spark SaveAsTable 镶木地板格式写入 S3 的速度比 HDFS 慢约 4 倍但我们发现使用 DirectPa
使用 python 从 HDFS 获取文件名列表

这里是 Hadoop 菜鸟我搜索了一些有关 hadoop 和 python 入门的教程但没有取得太大成功我还不需要使用映射器和缩减器进行任何工作但这更多是一个访问问题作为Hadoop集群的一部分 HDFS 上有一堆 dat 文件
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
一个目录下可以有两个oozieworkflow.xml文件吗？

一个目录下可以有两个oozieworkflow xml文件吗如果是这样我如何指示 oozie runner 运行哪一个您可以有两个工作流程文件只需为它们指定唯一的名称然后您可以通过设置oozie wf application pa
Sqoop Import --password-file 功能在 sqoop 1.4.4 中无法正常工作

我使用的是hadoop 1 2 1 sqoop版本是1 4 4 我正在尝试运行以下查询 sqoop import connect jdbc mysql IP 3306 database name table clients target d
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
无法从 JAR 文件加载主类

我有一个 Spark scala 应用程序我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系我成功显示了我的消息但他显示了错误像这样 Hello my applicat
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
hive查询无法通过jdbc生成结果集

我是 Hive 和 Hadoop 的新手在我的教程中我想将表创建为 import java sql SQLException import java sql Connection import java sql ResultSet im
Oozie SSH 操作

Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了这里真正的问题可能是什么请指出解决方案 logs AUTH FAILE
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的

随机推荐

在git中删除远程分支：一劳永逸地理解它

我今天在这里发帖的原因是因为我在命令行上看到的行为与我实际在网上阅读的行为不同所以这让我很困惑这里有问题的两个命令是 git branch r d origin topic1 and git push origin topic1 到目前
引导程序。如何只为手机屏幕添加下边距？

我有这个 HTML 代码 div class row div class col xs 12 div class titulo h2 class title section font switch Algunos tecnologias q
如何在Java中读取多行输入

我们的教授正在让我们用 Java 进行一些基本编程他提供了一个网站以及用于注册和提交我们的问题的所有内容因为今天我需要做这个示例我觉得我走在正确的轨道上但我就是做不到弄清楚剩下的事情这是实际的问题 Sample Input 10
Angular 2 ADAL 令牌刷新，用于隐式流程（使用“adal-angular4”）

似乎没有实用的方法来刷新隐式流中的令牌有人能够实现这一目标吗 MS 文档建议在 Iframe 中进行刷新寻找有关在 adal ng2 或 adal js 中调用哪些方法的建议编辑我正在使用这个库https github com be
如何从 Amplify 获取与 API 网关和 cognito 配合使用的访问令牌？

我正在尝试从 Amplify 使用 Vue 获取正确的令牌以使用 Cognito 登录 API 网关到目前为止我尝试过这些 Auth currentSession then data gt console log idToken s d
Meteor 帐户自动登录模式？

我正在考虑使用手机号码注册系统人们可以使用手机号码注册并收到短信来验证他们是否存在此时我想让他们自动登录而无需密码短信基本上就是密码这是以 Lyft 应用程序注册为模式的不需要用户名密码等但对于我的一生我不知道如何做到这一点
从核心音频框架开始

对于我打算很快开始的项目我需要播放压缩和未压缩的音频文件为此我打算使用 Core Audio 框架然而我之前没有音频编程经验我真的不知道从哪里开始是否有任何初学者级别的资源或示例项目可以演示如何使用 Core Audio 构建
Java 不允许泛型类使用内部类数组

我知道您无法创建泛型类型的数组而是必须诉诸黑客鉴于 Java 支持泛型数组只是不支持它们的创建我不清楚为什么 hack 比支持创建泛型数组的 Java 更好而不是写这个 Map Entry
为什么 typeof(int).ToString() 不是常量？

我正在尝试这样做 const string intType typeof int ToString switch typeof MyT ToString case intType return int break 但编译器说错误CS013
基于规则的节点重组

假设我有以下 XML 文件其中包含我想根据规则重新排列的节点
JSF2 无法从 ViewScoped 作为 ManagedProperty 访问 SessionScoped bean

我有一个奇怪的问题 Afaik 我可以将 SessionScoped bean 注入到 viewscoped 中因为它比另一个更广泛这是我的代码 ManagedBean ViewScoped public class ProjectBe
如何在 React-query 中使用惰性查询？

我正在使用 React query 进行 API 调用我想知道是否有一种方法可以以惰性方式调用查询意味着仅当查询参数更改时才调用查询这就是我目前所拥有的我正在使用黑客useEffect哪里如果recipeName更改然后运行ref
Django 与远程 Oracle 服务器的性能非常慢

我正在 Django 中向远程 Oracle 服务器运行原始 SQL 查询查询很长并且花了一分半钟才完成但如果我使用 Oracle SQL Server 程序执行相同的查询则查询运行时间不到一秒为何性能差异如此之大如何加快 Dja
如何在按 Enter 键时 dataGridView 光标转到下一行

我已经编写了以下代码当用户按 Enter 时转到下一个单元格但代码不起作用我无法找到错误 private void dataGridView1 KeyDown object sender KeyEventArgs e if e Key
有没有办法在 Play 商店中设置每个 Android 版本（而不是 API 级别）的应用程序兼容性？

我有一个可以在 Android 2 3 6 上运行的应用程序但会导致干扰 https stackoverflow com questions 14804304 when does android show a pairing dialog
如何将 numpy 数组从某一行开始写入 .txt 文件？ numpy 版本 1.6

At 如何将 numpy 数组从某一行开始写入 txt 文件 https stackoverflow com questions 39483774 how to write numpy arrays to txt file starting
从“Class”分配给“id”的指针类型不兼容

我有一个 Utility 实现的类AVAudioPlayerDelegate协议这是我的实用程序 h interface Utility NSObject
有没有办法让 git 显示添加的行、更改的行和删除的行？

git diff stat and git log stat显示输出如 git diff C stat HEAD c9af3e6136e8aec1f79368c2a6164e56bf7a7e07 app controllers applic
解耦视图、表示和 ASP.NET Web 窗体

我有一个 ASP NET Web 窗体页面演示者需要用控件填充该页面这种交互对页面生命周期有些敏感我想知道它是否有一个我不知道的技巧我想对整个事情保持实际但不妥协可测试性目前我有这个 public interface ISome
Sqoop - 数据分割

Sqoop 能够使用以下方式从多个表导入数据 query子句但不清楚是否能够导入以下查询按部门号从员工组中选择部门号平均工资另一个问题是 sqoop import connect jdbc mysql myserver 1202 u

Sqoop - 数据分割

Sqoop - 数据分割 的相关文章

随机推荐

热门标签

Sqoop - 数据分割的相关文章