使用 sqoop 导入 Hive 时出现文件存在错误

2023-12-13

我正在尝试将 Retail_db 数据库表复制到我已经创建的 Hive 数据库中。当我执行以下代码时

sqoop import-all-tables \
--num-mappers 1 \
--connect "jdbc:mysql://quickstart.cloudera:3306/retail_db" \
--username=retail_dba \
--password=cloudera \
--hive-import \
--hive-overwrite \
--create-hive-table \
--outdir java_files \
--hive-database retail_stage

我的 Map-reduce 作业因以下错误而停止：

错误工具.ImportAllTablesTool：运行导入时遇到 IOException 作业：org.apache.hadoop.mapred.FileAlreadyExistsException：输出目录 hdfs://quickstart.cloudera:8020/user/cloudera/categories 已经存在

我正在尝试将表复制到 hive 数据库，那么为什么 cloudera 中的现有文件会导致问题。有没有办法忽略此错误或覆盖现有文件。

就是这样sqoop进口工作作品：

sqoop创建/导入数据tmp dir(HDFS）这是用户的主目录（在你的情况下是/user/cloudera).
然后将数据复制到其实际的配置单元位置（即/user/hive/wearhouse.
This categories在运行 import 语句之前 dir 应该已经存在。因此，删除该目录或重命名它（如果它很重要）。

hadoop fs -rmr /user/cloudera/categories

hadoop fs -mv /user/cloudera/categories /user/cloudera/categories_1

并重新运行 sqoop 命令！

简而言之，导入到Hive将使用 hdfs 作为暂存位置，而 sqoop 删除暂存目录/user/cloudera/categories复制（成功）到实际的 hdfs 位置后 - 这是 sqoop 作业的最后阶段清理 staging/tmp 文件 - 所以如果你尝试列出 tmp staging 目录，你将找不到它。

导入成功后：hadoop fs -ls /user/cloudera/categories- dir 不会在那里。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

import

hive

SQOOP

使用 sqoop 导入 Hive 时出现文件存在错误的相关文章

无法使用 Postgres 和 Python 进行“COPY FROM”

正如主题这是代码没有错误消息但数据没有插入这是我的代码谁能告诉我它有什么问题吗 import psycopg2 import sys import os import glob import csv open the csv fo
区分由于找不到模块而导致的 ImportError 或 python 中模块本身的错误导入？

我在 python 中有一些模块它们是动态导入的并且都具有相同的结构 plugin py models py tests py 在管理代码中我想导入这些子模块但例如 models py 或tests py 不是强制性的所以我可以有
Hive如何存储数据，什么是SerDe？

当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据执行 INSERT 或 CTAS 时请参阅第 441 页上的导入数据表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
导入时记录器命名与日志记录配置之间不兼容

我正在通过读取文件并使用来在 main py 中设置 Python 日志记录文件配置 http docs python org library logging config html选项我希望能够在测试和实时日志记录配置之间切换因此我想
Sqoop Import --password-file 功能在 sqoop 1.4.4 中无法正常工作

我使用的是hadoop 1 2 1 sqoop版本是1 4 4 我正在尝试运行以下查询 sqoop import connect jdbc mysql IP 3306 database name table clients target d
将字符串作为有序字典导入

我有一个没有扩展名的文件其中包含这样的行忽略行之间的间距但每一行都是单独的行 OrderedDict key1 u value1 key2 value2 OrderedDict key1 u value1 key2 value2 Or
导入后属性未添加到模块中

我做了以下实验室 vagrant ubuntu xenial test tree pack1 init py mod1 py pack2 init py mod2 py mod3 py test py 2 directories 6 fil
如何在 R 中导入 matlab 表

我有一个matlab mat文件与表数据类型我想将其导入 R 中我为此使用 readMat R 正在将其作为列表读取之后有没有办法将列表转换为 R 中的数据帧或表格格式当我使用as dataframe我收到以下错误 Error in
连接到 Hive 时使用 Spark 进行 Kinit

我正在尝试从独立的 Spark 连接到 Hive hadoop 集群具有 kerberos 身份验证有人可以让我知道如何在 Spark 程序中执行 kinit 我可以连接到配置单元吗更新我的 Spark 与 Hadoop 位于不同的集
为什么需要在父子组件中多次导入React？

如果您有已导入的父组件文件React 为什么它的任何渲染的子文件也需要导入 React 这是否只是一种安全措施以防这些子项被渲染到尚未导入 React 的其他地方 In nodejs每个文件都是一个模块有自己的变量范围当您将变量导入文
Python导入Django管理命令的问题

不管出于什么原因当我刚接触 Python 和 Django 时我在 models py 文件的顶部编写了一些像这样的导入语句 from django contrib import auth 我会这样使用它 class MyModel m
AWS Athena 扁平化来自嵌套 JSON 源的数据

我想从 Athena 中的嵌套 JSON 创建一个表描述的解决方案here http docs aws amazon com athena latest ug json html使用 hive Openx JsonSerDe 等工具尝试在
制作 SQL Server 转储并将该转储导入另一个 SQL Server 的最佳（最简单）方法

我想从一台服务器在 SQL Server 中实现数据库导出转储并将该转储导入到另一台 SQL Server 中并且不一定使用相同的架构名称例如如果我准备了一个数据库其中包含用于为新客户实施新数据库的所有数据集则该数据库名为 D
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
导入 python 模块的特殊性？

我一直在使用 python 的 PySerial 库pyserial API http pyserial sourceforge net pyserial api html 我似乎无法理解为什么我必须专门导入模块的某个部分这会给我一个错误
导入 firebase/app 以前可以工作，现在我收到错误（firestore 不是函数）？

我正在使用 React 和 Redux 我使用如下所示的 import 导入了 firebase import as firebase from firebase app import firebase firestore 一切正常然后我
Spyder 未检测到导入的 python 文件中的更改

我正在使用 Spyder 3 2 4 Python 3 6 Spyder 不会检测导入的 python 文件中的更改例如测试2 py def func return 5 测试1 py import test2 a test2 func
如何在 iOS 中注册自定义文件类型

我目前正在创建一个应用程序我想让用户在其中备份他们的文件 plist m4a 我压缩文件并将扩展名更改为自定义扩展名专门针对我的应用程序例如 MyBackup 然后用户可以通过电子邮件或 iTunes 文件共享进行导出我已经阅读过
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1

随机推荐

“关闭”流？

我正在从 java 读取文本BufferedReader像这样 Stream continually reader readLine takeWhile case null gt reader close false case gt tru
修剪 NSString 末尾的空格

我需要删除字符串末尾的空格我怎样才能做到这一点示例如果字符串是 Hello 它必须成为 Hello 摘自这里的答案 https stackoverflow com a 5691567 251012 NSString stringByT
如何使用两列上的 WHERE 子句加速 MySQL 查询？

我试图通过两列上的 WHERE 子句来加速对大型表的查询据我所知 MySQL 仅使用 ALERT ID 列有没有办法使用两个索引重写此查询 SHOW INDEX 和 EXPLAIN 输出如下 show index from alert
nvarchar 连接/索引/nvarchar(max) 莫名其妙的行为

今天我在 SQL Server 2008R2 和 2012 中遇到了一个非常奇怪的问题我正在尝试使用串联和结合来构建一个字符串select陈述我发现生成的字符串仅包含一个输入字符串不是我所期望的所有输入字符串的串联结果我已经找到了解
Fabric Crashlytics - 聚合来自不同项目的数据

我有几个自定义的应用程序它们具有不同的包名称捆绑 ID 崩溃数据将被发送到 Fabric Crashlytics 仪表板中的不同应用程序我猜它们有不同的包名称即使崩溃数据相同相同类型相同异常我的问题是这可能吗或者有没有办法
调用退出后无法将握手入队

我已经实现了以下代码 module exports getDataFromUserGps function callback connection connect connection query SELECT FROM usergps f
自托管 WCF 服务器 - 从文件而不是证书存储加载证书

我目前正在使用 wcf 服务器并且希望从文件资源而不是证书存储加载我的证书以使部署更容易有什么想法如何做到这一点感谢您的帮助假设您使用双工通道您可以从文件加载证书如下所示 Load certificate file wit
只获取数组的唯一值

我是 javascript 的新手我尝试使用不同的但它不是我想要的示例数组 let arr key 1 value dog key 1 value dog key 2 value cat key 3 value bird key 3
libgdx 剪切图像

一段时间以来我一直在尝试剪切图像我将解释为什么以及我尝试了什么所以我想创建一个马力条只不过它不是条而是一颗心所以我认为这很容易我所要做的就是让两张图片将它们画在彼此的顶部然后只剪一张就可以了看起来好像 HP 正在丢失但
为什么我不能在 write-host 中使用 $_ ？

我正在尝试将字符串数组通过管道传输到 write host 并显式使用编写这些字符串 foo bar baz write host 但是它失败了输入对象无法绑定到命令的任何参数因为该命令不采用管道输入或者输入及其属性与采用管道输入
如何向 FeathersJS 套接字连接添加参数

我正在开发一个使用 FeathersJS 服务器的应用程序以及一个使用 FeathersJS Socket io 客户端连接到服务器的 Electron 应用程序我想使用 Electron 应用程序中的通道在服务器中的某些数据发生更改时
将 python 中的数据框重塑为 3D

我正在尝试将手写字符数据集重塑为 3D 形式以便它可以与数字识别数据集连接起来我尝试了多次但我不知道如何做到这一点实际的数字识别数据集的形状为 60000 28 28 字符识别数据集的形状为 372450 785 第一列是目标变量
在 C++ 中从 YUV 转换为 RGB (android-ndk)

我在 android 中开发想要将相机的预览回调中的字节数组 YUV 格式转换为 rgb 格式我已经使用了这个答案中给出的函数在Android中从视频图像获取帧它在java中完美运行但我的问题是我想在c 中创建该函数我正在使用
mechanize (python) 单击 javascript 类型链接

是否可以让 mechanize 跟随 javascript 类型的锚链接我正在尝试使用 mechanize 和 beautifulsoup 登录 python 网站这是锚链接 a href a
如何在基于 Spring Java 的配置中放置带有正则表达式的 URL

在 Spring Security XML 配置文件中我有类似的内容
SQLite条件

我只想将这个函数查询从navicat转换为sqlite查询 Select from tbl sample where ID 1 And IF RECEIPT MODE MANUAL DATE a MANUAL COLLECTION DATE
Karate API - 为什么响应不返回调用的功能文件

我通过传递 un pwd 和端点 url 从后台标签下的另一个功能调用登录功能如下所示登录功能已成功运行但其响应未返回到调用的功能文件 Add Feature Adding products Background table logi
java.util.date 错误？

java util Date 是否有错误在进行一些测试时我将毫秒设置为 2147483647 应该给我一个日期 2038 01 19 03 14 07 但它返回的是 1970 01 25 20 31 23 还尝试了 4294967295
不同环境下不同DB名的跨库查询？

您将如何在不同环境中处理跨数据库查询例如 db1 development 和 db2 development db1 product 和 db2 product 如果我想在开发过程中执行从 db2 到 db1 的跨数据库查询我可以使用完
使用 sqoop 导入 Hive 时出现文件存在错误

我正在尝试将 Retail db 数据库表复制到我已经创建的 Hive 数据库中当我执行以下代码时 sqoop import all tables num mappers 1 connect jdbc mysql quickstart c

使用 sqoop 导入 Hive 时出现文件存在错误

使用 sqoop 导入 Hive 时出现文件存在错误 的相关文章

随机推荐

热门标签

使用 sqoop 导入 Hive 时出现文件存在错误的相关文章