Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用 Sparklyr 将字符串/字符转换为日期
我已经将一张表带入 Hue 其中有一列日期 我正在尝试在 Rstudio 中使用 Sparklyr 来玩它 我想将字符列转换为日期列 如下所示 Weather data mutate Weather data date2 as Date d
r
apachespark
hive
dplyr
sparklyr
如何有条件地从列中删除前两个字符
我有一些电话记录的以下数据 我想从每条记录中删除前两个值 因为它们是国家 地区代码 我可以使用 Scala 执行此操作的方式是什么 Spark https en wikipedia org wiki Apache Spark or Hive
scala
apachespark
Hadoop
apachesparksql
hive
Hive 中特定列的区别
我正在运行 Hive 071 我有一个表 有多行 具有相同的列值 x y 1 2 1 3 1 4 2 2 3 2 3 1 我想让 x 列唯一 并删除具有相同 x 值的行 x y 1 2 2 2 3 2 or x y 1 4 2 2 3 1
unique
Distinct
hive
如何使用 Hive 获取以分钟为单位的日期差异
下面的查询是我的 sql server 查询 我希望它将其转换为 hive 查询 select DATEDIFF minute 19000101 2013 01 01 10 10 10 你可以使用unix timestamp https c
sql
Hadoop
hive
datedifference
Hive 中的倾斜表
我正在学习蜂巢并遇到倾斜的表格 帮助我理解它 Hive 中的倾斜表是什么 我们如何创建倾斜表 它如何影响性能 Hive 中的倾斜表是什么 倾斜表是一种特殊类型的表 其中经常出现的值 严重倾斜 被分成单独的文件 其余的值转到其他文件 我们如何
Hadoop
hive
Bigdata
无法从 Spark SQL 使用现有的 Hive 永久 UDF
我之前已经向 hive 注册了一个 UDF 是永久的不是TEMPORARY 它直线工作 CREATE FUNCTION normaliseURL AS com example hive udfs NormaliseURL USING JAR
apachespark
hive
apachesparksql
UDF
如何使用rank函数获取hive中的最新记录
我在配置单元中有下表 其中包含列 ID 名称和时间戳 根据下面的时间戳应该输出最新记录 你不需要为此排名 您的输出描述如下 select t from t order by t transaction time desc limit 3 E
sql
Hadoop
hive
HiveQL
SQOOP
如何在 Hive 中访问 HBase 表,反之亦然?
作为一名开发人员 我通过使用以下命令从现有 MySQL 表导入数据 为我们的项目创建了 HBase 表 sqoop job 问题是我们的数据分析师团队熟悉MySQL语法 意味着他们可以查询HIVE轻松上桌 对于他们 我需要在 HIVE 中公
hive
Hbase
SQOOP
apachehive
在 Hive 中创建临时表?
Hive 支持临时表吗 我在 apache 文档中找不到它 从 Hive 0 14 0 开始感谢 hwrdprkns 的评论 从 Hive 0 14 0 开始 支持临时表https cwiki apache org confluence d
Hadoop
hive
如何使用spark/scala +代码+配置通过远程hive存储(s3 orc)在sparksql中加载文件
intellij spark gt Hive Remote 存储在S3上 orc格式 无法通过 Spark scala 读取远程 Hive 表 能够读取表架构 但无法读取表 线程 main java lang IllegalArgument
scala
apachespark
amazons3
hive
Thrift
高基数字段的 Hive 查询性能
我在配置单元中有一个单一但巨大的表 几乎总是使用主键列进行查询 例如 employee id 该表将非常巨大 每天插入数百万行 我想使用该字段上的分区进行快速查询 我关注了这个帖子 https stackoverflow com quest
sql
Hadoop
hive
queryoptimization
将 CSV 文件(包含空字符串和重复项)导入 DynamoDB
我有一个 CSV 文件 我正在尝试将其导入到 Amazon DynamoDB 因此 我将其上传到 S3 设置 EMR 集群 并创建一个外部表 如下所示 hive gt CREATE EXTERNAL TABLE s3 table myite
csv
Hadoop
amazonwebservices
hive
amazondynamodb
是否可以将数据导入Hive表而不复制数据
我将日志文件以文本形式存储在 HDFS 中 当我将日志文件加载到 Hive 表中时 所有文件都会被复制 我可以避免所有文本数据存储两次吗 编辑 我通过以下命令加载它 LOAD DATA INPATH user logs mylogfile
Hadoop
hive
HDFS
使用 Hive 中的 Month() 获取 MM 中的月份
Select from concat YEAR DATE SUB MAX Column name 60 MONTH DATE SUB MAX Column name 60 01 The month 仅产生single九月之前的月份数字 即一
date
hive
HiveQL
monthcalendar
Hive gzip 文件解压
我已经将一堆 gz 文件加载到 HDFS 中 当我在它们之上创建一个原始表时 我在计算行数时看到了奇怪的行为 比较 gz 表和未压缩表的 count 结果 结果有约 85 的差异 文件 gz 压缩后的表记录较少 有人见过这个吗 CREATE
Hadoop
gzip
hive
Hive 中的 ParseException
我正在尝试使用UDF在蜂巢中 但是当我尝试使用创建临时函数时userdate as unixtimeToDate 我得到这个异常 hive gt create temporary function userdate1 as unixtime
hive
使用 C# .net 挂载其他用户 hive
我正在编写一个应用程序 它将为每个选定的用户写入一些注册表项 我想知道是否有正确的方法来安装另一个用户的配置单元以在其中写入 目前 我正在使用 REG LOAD 来安装每个配置单元 它很实用 但很混乱 任何想法 预先感谢您的回答 Cheer
c
Windows
registry
hive
当我有 hive-site.xml 时,hive shell 无法打开
我已经在我的VM播放器中安装了ubuntu 14和hadoop 2 6 0以及Hive 0 14 0 在我的 Hive conf 中没有 Hive site xml 所以我创建了一个新文件 但是当我打开 Hive shell 时出现错误 如
hive
如何将数据数组导入到 Hive 表中的单独行中?
我正在尝试将以下格式的数据导入配置单元表 identifier id 1 dataA dataA 1 identifier id 2 dataA dataA 2 我有多个这样的文件 我希望每个 在表中形成一行 这是我尝试过的 CREATE
Arrays
Hadoop
hive
createtable
hiveserde
Hive - 如何在命令行中显示 Hive 查询结果以及列名称
我在 Hive 工作了一段时间 请注意 我根本不使用 Hue 我一直使用 Hive shell 现在我遇到了一个奇怪但有用的问题 每当我们在 Hive shell 中执行查询时 我们都可以在屏幕上看到相关结果 但我们无法识别与数据对应的列名
Hadoop
hive
«
1 ...
5
6
7
8
9
10
11
...53
»