使用 Hive 自定义输入格式

2024-04-16

Update：好吧，事实证明以下不起作用的原因是因为我使用的是较新版本的InputFormat API (import org.apache.hadoop.mapred这是旧的与import org.apache.hadoop.mapreduce这是新的）。我遇到的问题是将现有代码移植到新代码。有没有人有写多行的经验InputFormat使用旧的API？

尝试使用 Hadoop/Hive 处理 Omniture 的数据日志文件。文件格式是制表符分隔的，虽然在大多数情况下非常简单，但它们确实允许您在字段中包含多个新行和制表符，并通过反斜杠转义（\\n and \\t）。因此，我选择创建自己的 InputFormat 来处理多个换行符，并在 Hive 尝试对选项卡进行拆分时将这些选项卡转换为空格。我刚刚尝试将一些示例数据加载到 Hive 中的表中，但出现以下错误：

CREATE TABLE (...)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'OmnitureDataFileInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.IgnoreKeyTextOutputFormat';

FAILED: Error in semantic analysis: line 1:14 Input Format must implement InputFormat omniture_hit_data

奇怪的是我的输入格式确实扩展了org.apache.hadoop.mapreduce.lib.input.TextInputFormat (https://gist.github.com/4a380409cd1497602906 https://gist.github.com/4a380409cd1497602906).

Hive 是否需要您扩展org.apache.hadoop.hive.ql.io.HiveInputFormat反而？如果是这样，我是否必须重写 InputFormat 和 RecordReader 的任何现有类代码，或者我可以有效地更改它扩展的类吗？

查看 LineReader 和 TextInputFormat 的代码后发现了这一点。创建了一个新的 InputFormat 以及 EscapedLineReader 来处理此问题。

https://github.com/msukmanowsky/OmnitureDataFileInputFormat https://github.com/msukmanowsky/OmnitureDataFileInputFormat

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

hive

使用 Hive 自定义输入格式的相关文章

Hive：转换“yyyy-MM-dd'T'HH:mm:ss.SSS'Z'”中缺少秒数的字符串日期时间

我使用以下代码将字符串日期时间变量转换为日期时间但转换后的字符串缺少 SSS 部分使用的代码 cast FROM UNIXTIME UNIX TIMESTAMP oldtime yyyy MM dd T HH mm ss SSS Z y
hive中每行的百分比计算

我在配置单元中有一个具有以下架构的表差值 int 计数值 int 值为 5 2 30 1 90 1 100 1 现在我想找到每个 count value 与 count value 总和的百分比每行的值类似于 count value s
HIVE：GROUP BY 的行为与 MySQL 中不同

我对 MySQL 有一些经验最近我必须在 HIVE 上做一些工作两者之间的查询基本结构非常相似但是 HIVE 中的 GROUP BY 的工作方式似乎有点不同因此我无法实现以前在 MySQL 中使用 GROUP BY 可以实现的目标
Hive 表的默认分隔符是什么？

如果我们在创建表时不提及任何分隔符 hive 是否有默认分隔符创建表日志 ts bigint 行字符串按 dt 字符串国家地区字符串分区默认分隔符 001 如果创建hive表时没有设置您可以将其更改为其他分隔符例如 hive
使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado
在hbase中创建表

我是 hbase 和 hadoop 的新手无论如何我已经成功建立了一个由3台机器组成的hadoop集群现在我需要一些帮助来建立数据库我有一个表评论包含字段 user id comments 对评论的评论可以多个和状态字段相同
Amazon MapReduce 日志分析最佳实践

我正在解析 Apache Nginx Darwin 视频流服务器生成的访问日志并按日期引用者用户代理聚合每个交付文件的统计信息每小时都会生成大量日志而且这个数字在不久的将来可能会急剧增加因此通过 Amazon Elastic
HDFS容量：如何阅读“dfsadmin报告”

我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时我得到类似这样的信息简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
Spark 2.0 弃用了“DirectParquetOutputCommitter”，没有它如何生活？

最近我们从 HDFS 上的 EMR gt S3 上的 EMR 启用了一致视图的 EMRFS 迁移我们意识到 Spark SaveAsTable 镶木地板格式写入 S3 的速度比 HDFS 慢约 4 倍但我们发现使用 DirectPa
Hadoop setInputPathFilter错误

我正在使用 Hadoop 0 20 2 无法更改并且我想向我的输入路径添加一个过滤器数据如下 path1 test a1 path1 test a2 path1 train a1 path1 train a2 我只想处理所有文件trai
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
无法使用 PDI 步骤连接到 HDFS

我已经配置成功了Hadoop 2 4 in an Ubuntu 14 04 虚拟机 from a 视窗8系统 Hadoop 安装工作绝对正常而且我还可以从 Windows 浏览器查看 Namenode 附图如下所以我的主机名是 ubu
Curl下载到HDFS

我有这个代码 curl o fileName csv url xargs hdfs dfs moveFromLocal 1 somePath 当我执行此代码时 curl 将请求中的值放入 fileName csv 中该文件将移动到 HDF
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
使用 UDF 添加文件读取添加到 Hive 资源的文件

我想知道如何读取使用添加的 Hive 资源ADD FILE来自乌德夫例如 Hive gt add file users temp key jks Java中的UDF可以读取这个文件吗在 Udf 中获取此文件的路径是什么谢谢大卫一旦
在 Hadoop 中按文件中的值排序

我有一个文件其中每行包含一个字符串然后是一个空格然后是一个数字例子 Line1 Word 2 Line2 Word1 8 Line3 Word2 1 我需要按降序对数字进行排序然后将结果放入文件中为数字分配排名所以我的输出应该
Hive中group by后是否可以连接字符串字段

我正在评估 Hive 需要在 group by 之后进行一些字符串字段连接我找到了一个名为 concat ws 的函数但看起来我必须显式列出所有要连接的值我想知道是否可以在 Hive 中使用 concat ws 做这样的事情这是一个
Hadoop：读取ORC文件并放入RDBMS中？

我有一个以 ORC 文件格式存储的配置单元表我想将数据导出到 Teradata 数据库我研究了 sqoop 但找不到导出 ORC 文件的方法有没有办法让 sqoop 为 ORC 工作或者有什么其他工具可以用来导出数据 Thanks
Oozie SSH 操作

Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了这里真正的问题可能是什么请指出解决方案 logs AUTH FAILE
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分

随机推荐

使用 smack 库在 JAVA 中实现 GCM CCS (XMPP)。与 gcm.googleapis.com 连接失败

我正在尝试使用 GCM 在 android 客户端和 java 中的服务器应用程序之间进行通信我正在使用基于 XMPP 的 GCM 因为我需要异步双向消息在我的客户端 1 Google Play 服务检查显示需要更新 google p
如何创建类似于ios 7日历图标的动态图标？

我想创建动态文本更改图标例如 iOS 7 中的日历应用程序有什么办法可以做到吗你不能这样做没有 API 允许这样做您的应用程序图标位于应用程序包中该图标是只读的因此无法修改
PHP 错误：“未指定输入文件。”在本地开发服务器上的 IIS 10.0、PHP 5.6 中

我的开发服务器有问题运行 Win 10 Pro IIS 10 0 16299 PHP 5 6 安装到C Program Files x86 PHP v5 6 这是最近的一个问题 PHP 以前工作得很好但后来就停止工作了我的所有 PHP
分支内存不足的递归

我有一个编程作业是这样的给定三个数字 a b 和 c 1 a b c 10 18 每次有两个选择时要么将 b 添加到 a a b 要么将 a 添加到 b b a 编写一个程序根据 a 和 b 相加能否得到 c 来打印 YES 或 NO
如何设置 Xcode 以获得正确的 javascript 格式？

当我输入如下内容时 Xcode3 和更新的无法正确格式化 Javascript doSomething somewhere function err result 它插入了一个巨大的凹痕我尝试更改 Xcode 格式化规则但没有成功以
谁能解释为什么我的代码中会弹出这些“不适当的阻止方法调用”警告？

我在 Kotlin 中编写了这段代码使用协程下载一些 API 信息来下载数据然而代码显示了很多警告将消息声明为不适当的阻塞方法调用这是代码 class DownloadInfoClass private lateinit var
DataFrame Plot：如何对 X 轴排序

我正在绘制数据框 pandas 字段中的一些计数我发现 X 轴按计数排序降序相反是否可以按字段的字母顺序排序这是Python代码 df cartype value counts plot kind bar 这按计数排序但我想按车
UIButton 标签文本被剪切

我在 Interface Builder 中内置了一个 UIButton 它有一个默认标签在 Xcode 中我动态更改标签文本如下所示 myButton titleLabel text this is the new label 但是
Selenium：谁设置了 cookie？

在selenium 和python 如果它确实重要的话中有没有办法找出哪个js设置访问某些cookie 我需要的一些功能由OpenWPM https github com citp OpenWPM 他们是如何做到的呢据我所知他们 O
按分割字符串 django orm 排序

我有一个 ID 作为参考号和年份格式如下 1 17 98 15 2 17 112 17 2345 17 67 17 9 17 8974 16 当我使用 django orm 获取我的 ID 时 obj MyIDs objects filt
使用构造函数参数从类创建新实例

我遇到过这样的情况我的 Java 类需要创建大量某种类型的对象我想给出作为参数创建的对象的类的名称此外我需要在其构造函数中为创建的类提供一个参数我有类似的东西 class Compressor Class ccos public
mvn release 使用特定的私钥推送到 git

我希望有人能帮忙解决这个问题我正在尝试配置mvn release插件pom xml这样更新的 pom 版本和标签就会作为 git repo 的一部分推送到release prepare 至关重要的是它需要使用特定用户的ssh私钥因为最
如何计算 Windows 区域 (HRGN) 的面积（以像素为单位）？

获取任意 Windows 区域面积的最快方法是什么我知道我可以枚举边界矩形的所有点并调用PtInRegion 功能但是似乎不是很快也许你知道一些更快的方法你打电话时GetRegionData http msdn microsoft c
与其他浏览器中的“-moz-element”等效吗？

我想创建一个不透明模糊叠加类似于 Windows Aero 或 iOS7 不幸的是filter blur or filter url svgBlur 属性只能应用于元素不能应用于其后面的内容为了解决这个问题我们需要一个模糊背景的副本
dos2unix 不转换 ^M

我从 Windows 7 上运行的程序将结果导出到文本文件中并在 Xubuntu 14 04 上复制该文件在终端中我跑了dos2unix file txt 这告诉我converting file out mapqtl txt to U
使用 UDF 的 DataFrame 给出任务不可序列化异常

尝试在数据帧上使用 show 方法它给出了任务不可序列化异常我尝试扩展可序列化对象但错误仍然存在 object App extends Serializable def main args Array String Unit Log
在android中点击键盘的完成按钮时将数据插入数据库

我想知道在将数据插入数据库时按下键盘完成按钮时到底应该做什么我在这里使用多个编辑文本当谈到最后一个编辑按钮时我必须将所有数据插入数据库 private static final String CREATE DB TABLE BU
opencv VideoCapture.设置灰度？

我会避免将摄像机拍摄的每一帧转换为cvtColor frame image CV RGB2GRAY 有没有办法设置VideoCapture直接进入灰度 Example VideoCapture cap 0 cap set CV CAP PR
如何获取从标准 UIViewController 中调用的 UIWebView 的 UIScrollView 委托方法？

所以我只有一个标准的 UIViewController 其中有一个显示 pdf 的 UIWebView 对于应用程序功能我需要能够响应 UIWebView 的嵌套 UIScrollView 事件例如scrollViewWillBegin
使用 Hive 自定义输入格式

Update 好吧事实证明以下不起作用的原因是因为我使用的是较新版本的InputFormat API import org apache hadoop mapred这是旧的与import org apache hadoop mapredu

使用 Hive 自定义输入格式

使用 Hive 自定义输入格式 的相关文章

随机推荐

热门标签

使用 Hive 自定义输入格式的相关文章