hive

如何使用rank函数获取hive中的最新记录

我在配置单元中有下表其中包含列 ID 名称和时间戳根据下面的时间戳应该输出最新记录你不需要为此排名您的输出描述如下 select t from t order by t transaction time desc limit 3 E

sql Hadoop hive HiveQL SQOOP

如何在 Hive 中访问 HBase 表，反之亦然？

作为一名开发人员我通过使用以下命令从现有 MySQL 表导入数据为我们的项目创建了 HBase 表 sqoop job 问题是我们的数据分析师团队熟悉MySQL语法意味着他们可以查询HIVE轻松上桌对于他们我需要在 HIVE 中公

hive Hbase SQOOP apachehive

在 Hive 中创建临时表？

Hive 支持临时表吗我在 apache 文档中找不到它从 Hive 0 14 0 开始感谢 hwrdprkns 的评论从 Hive 0 14 0 开始支持临时表https cwiki apache org confluence d

Hadoop hive

如何使用spark/scala +代码+配置通过远程hive存储（s3 orc）在sparksql中加载文件

intellij spark gt Hive Remote 存储在S3上 orc格式无法通过 Spark scala 读取远程 Hive 表能够读取表架构但无法读取表线程 main java lang IllegalArgument

scala apachespark amazons3 hive Thrift

高基数字段的 Hive 查询性能

我在配置单元中有一个单一但巨大的表几乎总是使用主键列进行查询例如 employee id 该表将非常巨大每天插入数百万行我想使用该字段上的分区进行快速查询我关注了这个帖子 https stackoverflow com quest

sql Hadoop hive queryoptimization

将 CSV 文件（包含空字符串和重复项）导入 DynamoDB

我有一个 CSV 文件我正在尝试将其导入到 Amazon DynamoDB 因此我将其上传到 S3 设置 EMR 集群并创建一个外部表如下所示 hive gt CREATE EXTERNAL TABLE s3 table myite

csv Hadoop amazonwebservices hive amazondynamodb

是否可以将数据导入Hive表而不复制数据

我将日志文件以文本形式存储在 HDFS 中当我将日志文件加载到 Hive 表中时所有文件都会被复制我可以避免所有文本数据存储两次吗编辑我通过以下命令加载它 LOAD DATA INPATH user logs mylogfile

Hadoop hive HDFS

使用 Hive 中的 Month() 获取 MM 中的月份

Select from concat YEAR DATE SUB MAX Column name 60 MONTH DATE SUB MAX Column name 60 01 The month 仅产生single九月之前的月份数字即一

date hive HiveQL monthcalendar

Hive gzip 文件解压

我已经将一堆 gz 文件加载到 HDFS 中当我在它们之上创建一个原始表时我在计算行数时看到了奇怪的行为比较 gz 表和未压缩表的 count 结果结果有约 85 的差异文件 gz 压缩后的表记录较少有人见过这个吗 CREATE

Hadoop gzip hive

Hive 中的 ParseException

我正在尝试使用UDF在蜂巢中但是当我尝试使用创建临时函数时userdate as unixtimeToDate 我得到这个异常 hive gt create temporary function userdate1 as unixtime

hive

使用 C# .net 挂载其他用户 hive

我正在编写一个应用程序它将为每个选定的用户写入一些注册表项我想知道是否有正确的方法来安装另一个用户的配置单元以在其中写入目前我正在使用 REG LOAD 来安装每个配置单元它很实用但很混乱任何想法预先感谢您的回答 Cheer

c Windows registry hive

当我有 hive-site.xml 时，hive shell 无法打开

我已经在我的VM播放器中安装了ubuntu 14和hadoop 2 6 0以及Hive 0 14 0 在我的 Hive conf 中没有 Hive site xml 所以我创建了一个新文件但是当我打开 Hive shell 时出现错误如

hive

如何将数据数组导入到 Hive 表中的单独行中？

我正在尝试将以下格式的数据导入配置单元表 identifier id 1 dataA dataA 1 identifier id 2 dataA dataA 2 我有多个这样的文件我希望每个在表中形成一行这是我尝试过的 CREATE

Arrays Hadoop hive createtable hiveserde

Hive - 如何在命令行中显示 Hive 查询结果以及列名称

我在 Hive 工作了一段时间请注意我根本不使用 Hue 我一直使用 Hive shell 现在我遇到了一个奇怪但有用的问题每当我们在 Hive shell 中执行查询时我们都可以在屏幕上看到相关结果但我们无法识别与数据对应的列名

Hadoop hive

Hive 数据存储在哪里？

我对配置单元存储数据的位置有点困惑它将数据存储在 HDFS 还是 RDBMS 中 Hive Meta 存储是否使用 RDBMS 来存储 Hive 表元数据提前致谢 Hive 数据存储在其中之一Hadoop 兼容文件系统 https cw

Hadoop hive HDFS createtable hivemetastore

Pig 和 Hive 之间的区别？为什么两者都有？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我的背景进入 Hadoop 世界已经 4 周了使用 Cloudera 的 Hadoop VM 涉足 Hive Pig 和 Hadoop 读过

Hadoop hive apachepig

插入到 hive 中不存在的位置

我需要 ansi sql 中等效项的 hive 语法 insert into tablea id select id from tableb where id not in select id from tablea 因此 tablea 不

Hadoop hive azurehdinsight

在没有cloudera manager的情况下安装cloudera impala

请提供在没有cloudera manager的情况下在ubuntu中安装imapala的链接无法使用官方链接安装无法使用这些查询找到 impala 包 sudo apt get install impala Binaries for d

Hadoop hive Cloudera impala

“无法从空字符串创建路径”使用 S3 路径在 hive 中出现“CREATE TABLE AS”错误

我正在尝试在 Glue 目录中创建一个表其中包含使用 hive 在 EMR 中运行的 Spark 的 s3 路径位置我已尝试以下命令但出现错误 pyspark sql utils AnalysisException u java la

amazonwebservices PySpark hive awsgluedatacatalog awsgluespark

Hive：选择 AS 和分组依据

我有一个 Hive 查询例如 SELECT Year Month Day Hours Minutes cast cast Seconds as int 15 as int 15 AS secondMod Count AS PerCount

Hadoop hive