在 Hive 中获取空值使用 REGEX 创建和加载查询

2024-04-19

我有一个日志文件，我需要在其中使用 REGEX 存储数据。我尝试了下面的查询，但加载了所有 NULL 值。我已经检查了 REGEXhttp://www.regexr.com/ http://www.regexr.com/，它对我的数据工作正常。

CREATE EXTERNAL TABLE IF NOT EXISTS avl(imei STRING,packet STRING)                        
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (                                             
"input.regex" = "(IMEI\\s\\d{15} (\\b(\\d{15})([A-Z0-9]+)) )",          
"output.format.string" = "%1$s %2$s"                              
)
STORED AS TEXTFILE;

LOAD DATA INPATH 'hdfs:/user/user1/data' OVERWRITE INTO TABLE avl;

请在这里纠正我。

样本日志：

[INFO_|01/31 07:19:29]  IMEI 356307043180842 
[INFO_|01/31 07:19:33]  PacketLength = 372
[INFO_|01/31 07:19:33]  Recv HEXString : 0000000000000168080700000143E5FC86B6002F20BC400C93C6F000FF000E0600280007020101F001040914B34238DD180028CD6B7801C7000000690000000143E5FC633E002F20B3000C93A3B00105000D06002C0007020101F001040915E64238E618002CCD6B7801C7000000640000000143E5FC43FE002F20AA800C9381700109000F06002D0007020101F001040915BF4238D318002DCD6B7801C70000006C0000000143E5FC20D6002F20A1400C935BF00111000D0600270007020101F001040916394238B6180027CD6B7801C70000006D0000000143E5FBF5DE002F2098400C9336500118000B0600260007020101F0010409174D42384D180026CD6B7801C70000006E0000000143E5FBD2B6002F208F400C931140011C000D06002B0007020101F001040915624238C018002BCD6B7801C70000006F0000000143E5FBAF8E002F2085800C92EB10011E000D06002B0007020101F0010409154C4238A318002BCD6B7801C700000067000700005873

Thanks.

根据您当前的表定义，任何正则表达式都无法满足您的要求。原因是你的 file_format 设置为TEXTFILE，按行分割输入文件（\r, \n, or \r\n），在数据到达 SerDe 之前。

然后将每一行单独传递到正则表达式串行器，与您的正则表达式匹配，任何不匹配的返回NULL。因此，多行正则表达式将无法使用STORED AS TEXTFILE。这也是您收到全部的原因NULLrows：因为没有任何一行输入与您的整个正则表达式匹配。

这里的一种解决方案可能是预处理数据，使每条记录仅位于输入文件中的一行，但这不是您所要求的。

在 Hive 中执行此操作的方法是使用不同的 file_format：

STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'

TextInputFormat 从当前配置中读取名为的配置变量文本输入格式.记录.分隔符。如果您正在使用文本输入格式，此变量告诉 Hadoop 和 Hive 一条记录的结束位置和下一条记录的开始位置。

因此，将此值设置为类似EOR意味着输入文件被分割EOR，而不是按行。分割生成的每个块将作为整个块、换行符等传递给 RegexSerDe。

您可以在多个位置设置此变量，但如果这是仅此（以及会话中的后续）查询的分隔符，那么您可以执行以下操作：

SET textinputformat.record.delimiter=EOR;

CREATE EXTERNAL TABLE ...
...
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
   "input.regex" = ...
   "output.regex" = ...
)
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
          OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION ...;

在你的具体场景中，我不知道你可能会用什么textinputformat.record.delimiter代替EOF，因为我们只给出了一个示例记录，并且我无法根据您的正则表达式判断您要尝试捕获第二个字段。

如果您能提供这两项（具有 >1 条记录的示例数据，以及您要捕获的内容packet)，也许我能帮上更多忙。就目前情况而言，您的正则表达式与您提供的示例数据不匹配——甚至不匹配您链接的网站 http://regexr.com/3cogg.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Hive 中获取空值使用 REGEX 创建和加载查询的相关文章

C# 中是否存在异步正则表达式？它们对我的情况有帮助吗？

我的应用程序使用正则表达式并行搜索许多文件 await Task WhenAll filePaths Select FindThings 代替FindThings 它花费大部分时间执行正则表达式搜索因为这些文件的大小可能有数百MB sta
匹配所有 utf-8/unicode 小写字母形式的正确正则表达式是什么

我想匹配all拉丁语块中的小写字母形式简单的 a z 仅匹配 U 0061 和 U 007A 之间的字符而不匹配所有其他小写形式我想匹配所有小写字母最重要的是 EFIGS 语言中使用的拉丁语块中的所有带重音的小写字母 a z 是一个
MVC 模型在 OnExecuted 操作过滤器中为 null ...或者设置模型的更优雅的方式？

我有一个 ActionFilter 它覆盖了 OnActionExecuted 方法在 POST 操作中 filterContext Controller ViewData Model 始终为 null 我确实发现下面的文章似乎在说它不应
2017 年在 OS X 上从源代码构建 Apache Hadoop

到目前为止我已经分叉了 Git 存储库 https github com apache hadoop 我一直在寻找有关如何从源代码构建的信息我尝试过以下命令 mvn package Pdist Dtar DskipTests 这导致了以
使用 Regex/C# 将转换为

奇怪的问题但我不会浪费时间解释为什么我需要这样做只是我需要这样做我有以下内容
Notepad++ RegEx 替换为 Zerofill

我需要替换这样的列表 105164 25 105164 26 105164 29 105496 1 105496 2 To 105164 0025 105164 0026 105164 0029 105496 0001 105496 000
提取字符串中最后一个句点后的文本[重复]

这个问题在这里已经有答案了我意识到这个问题对于大多数正则表达式大师来说可能看起来非常简单但是回顾类似的问题并没有得出解决方案我有一个电子邮件地址向量称为email并希望在每个最后一个句点之后提取文本举例来说 email lt c
在 Hadoop 中按文件中的值排序

我有一个文件其中每行包含一个字符串然后是一个空格然后是一个数字例子 Line1 Word 2 Line2 Word1 8 Line3 Word2 1 我需要按降序对数字进行排序然后将结果放入文件中为数字分配排名所以我的输出应该
Groovy 中 Null Object 类的用途是什么？

我已经使用 Groovy 五个小时了刚刚发现Groovy NullObject http groovy codehaus org api index html org codehaus groovy runtime NullObject
如何从捆绑 .spec.js 文件中排除 webpack

我的 Package bundle 读取 var reqContext require context true js reqContext keys map reqContext 其中基本上包括所有 js 文件我希望表达式排除任何 sp
如何在java中使用模式匹配器？

假设字符串是我想提取xyz从字符串中出来我用了 Pattern titlePattern Pattern compile lttitle gt s s lt title gt Matcher titleMatcher titlePatte
为什么 rm 不能按我的预期工作？

我只想做一件简单的事我在目录中得到了以下文件 AppInterface h baa PEMsg h PluginInterface h 然后我发出命令 ls grep v h rm rf 令我非常沮丧的是 baa不会被删除但是这个 ls
正则表达式中 (*) 和 .* 有什么区别？ [复制]

这个问题在这里已经有答案了是任意字符零次或多次我试图找到以元音开头的单词我用了 aeiou 它给了我所有以元音开头的单词当我这样做时给出相同的结果 aeiou 现在我正在寻找以元音结尾的单词我做到了 aeiou 它没有给出任何结果
C 中的 NULL 是否需要/定义为零？

在我的 GCC 测试程序中 NULL 似乎为零但维基百科说NULL只需要指向不可寻址的内存有编译器做吗NULL非零我很好奇是否if ptr NULL 是比更好的练习if ptr NULL is guaranteed to be zer
用于正则表达式匹配及其在字符串中的位置的紧凑 Clojure 代码

斯图尔特哈洛威举了个例子 re seq w The quick brown fox 作为在 Clojure 中查找正则表达式匹配项的自然方法在他的书中这种构造与匹配器上的迭代进行了对比如果人们关心的只是一份比赛列表那就太好了但是
如何用单引号替换双引号

我该如何更换我认为这称为双引号我认为它称为单引号使用 PHP str replace text 或重新分配它 text str replace text
Spark JDBC 仅返回带有列名的数据帧

我正在尝试使用 Spark JDBC 连接到 HiveTable 代码如下 val df spark read format jdbc option driver org apache hive jdbc HiveDriver option
正则表达式或多个/单个字符

我正在动态地制作一个正则表达式我希望它匹配以下内容 lem le m levm lecm 基本上是 lem 但在 m 之前它可以有任意数量或任何字符中的任何一个现在我有 le 0 m 你可以在以下位置看到它http regexr co
Django url 模式 - 带正斜杠的参数

如何为两个参数创建 url 模式其中第一个参数包含正斜杠作为其内容的一部分 da ta1 data2 最初我有以下模式 r view P
独立于符号的字符串的模式匹配

我需要一种算法可以在数据中找到预定义的模式以字符串的形式存在独立于数据和模式的实际符号字符我只关心符号之间的关系而不关心符号本身数据中的同一符号具有不同的模式符号也是合法的模式匹配算法必须强制执行的唯一一件事是保留模式中同一

随机推荐

如何在特定项目中禁用“初始化 JS/TS 语言功能”？

我有一个 Laravel 项目在 Visual Studio Code 中开发它另外我在一个单独的项目中也有使用 Angular 8 的前端该项目也使用 VSC 我构建 Angular 项目并将构建版本推送到 Laravel 项目中
eclipse项目未导入本地Maven仓库中的jar包

我在设置 Eclipse 项目时遇到问题问题是每当我创建一个新项目并导入代码时 Eclipse 不会解析 C user m2 repository 中存在的 jar 文件中存在的包因此它会给出很多编译错误直到我通过添加外部 Jar
任务“：app：transformClassesWithDexForDebug”执行失败

我正在尝试执行代码但我在消息中收到错误消息梯度构建 that Execution failed for task app transformClassesWithDexForDebug Error Execution failed for
Jupyter + EMR + Spark - 从本地计算机上的 Jupyter 笔记本连接到 EMR 集群

我是 PySpark 和 EMR 的新手我尝试通过 Jupyter Notebook 访问 EMR 集群上运行的 Spark 但遇到错误我使用以下代码生成 SparkSession spark SparkSession builder
从文件读取时在 clojure 中分割行

我正在学校学习 clojure 马上就要考试了我只是在做一些事情以确保我掌握了窍门我试图从文件中逐行读取正如我所做的那样只要有我就想分割该行到目前为止这是我的代码 defn readFile map fn line cloju
属于 cakephp 和 html select 中的问题，我不明白该怎么做

cakephp菜鸟提出的简单问题我有两个模型玩家和团队 Team 有一个id int 和一个cool name varchar 玩家有一个 id int 一个 Cool name varchar 和一个团队表引用 team id int
如果购物车商品来自某些特定产品类别，请删除结帐字段

我使用 WooCommerce Checkout Manager 在账单部分添加自定义字段但仅当我有指定类别的某些产品时才需要显示此字段这些字段是必需的我写了这段代码 add filter woocommerce checkout f
从 PHP 中具有动态类名的类获取静态属性

我有这个一个保存类名的字符串变量 classname 一个字符串变量包含属性名称 propertyname 我想从该类获取该属性问题是该属性是静态的我不知道该怎么做如果该属性不是静态的则它将是 classname gt prop
使用 matplotlib 在 wxpython 面板中组合按键和鼠标按钮事件

In a wxPython我想使用的面板matplotlib s Lasso http matplotlib org api widgets api html highlight lasso matplotlib widgets Lasso
使用 xs:extension 忽略元素顺序

我该如何设计我的xsd忽略元素的顺序
在 python 中，对于标量， math.acos() 比 numpy.arccos() 更快吗？

我正在Python中进行一些科学计算其中包含大量几何计算并且我遇到了使用之间的显着差异numpy与标准相比math图书馆 gt gt gt x timeit Timer v np arccos a import numpy as np
如何在 Python 中搜索文本文件中的特定单词

我想在文本文件中查找与存储在名为 items 的现有列表中的单词相匹配的单词该列表是在上一个函数中创建的我也希望能够在下一个函数中使用该列表但我不确定如何为此我尝试使用类来实现这一点但我无法做到正确我无法弄清楚其余代码的问题是什
Django：在发布到模型之前我应该将感知日期时间实例转换为 UTC 吗？

I have aware日期时间实例其中tzinfo America Los Angeles 我想保存到模型中我应该在保存之前将其转换为 UTC 吗或者我可以按原样保存它因为它知道自己的时区我需要稍后将其转换为用户的时区吗acti
阻止文本环绕在锚点内的图标下方

我正在尝试创建一个由图标表示的链接我正在使用字体很棒 questions tagged font awesome用于图标和一些文本如果文本换行到下一行我希望它与文本对齐而不是出现在图标下方我尝试过在此找到的解决方案answer
打破parallel.foreach？

我怎样才能摆脱困境并行 for http msdn microsoft com en us library system threading tasks parallel for aspx loop 我有一个非常复杂的声明如下所示 Par
如何使用Git在不同平台上拥有不同的工作目录结构？

在 Windows 上我们有root folder1 root folder2 root folder3 在Linux上我们有root folder1 folder2 root folder1 folder3 我强烈希望不要使用子模块或子树
复选框的自定义图片？

我想将复选框显示为切换按钮但我无法使用 CCS 将自定义图片应用到它仍然绘制复选框如何完成这个任务呢 My CSS input type checkbox settingsbutton border style none backgr
Eloquent ORM(laravel 5) 是否负责 SQL 注入？

我在网上找不到它但是 Eloquent ORM 是否像 PDO 准备好的语句一样处理 SQL 注入没有任何框架能够处理 SQL 注入 You处理 SQL 注入框架可以提供方便地执行此操作的方法但您仍然必须一致地使用这些方法例如
CUDA素数生成

当数据大小增加超过 260k 时我的 CUDA 程序停止工作它不打印任何内容有人能告诉我为什么会发生这种情况吗这是我的第一个 CUDA 程序如果我想要更大的素数如何在 CUDA 上使用大于 long long int 的数据类型
在 Hive 中获取空值使用 REGEX 创建和加载查询

我有一个日志文件我需要在其中使用 REGEX 存储数据我尝试了下面的查询但加载了所有 NULL 值我已经检查了 REGEXhttp www regexr com http www regexr com 它对我的数据工作正常 CRE

在 Hive 中获取空值 使用 REGEX 创建和加载查询

在 Hive 中获取空值 使用 REGEX 创建和加载查询 的相关文章

随机推荐

热门标签

在 Hive 中获取空值使用 REGEX 创建和加载查询

在 Hive 中获取空值使用 REGEX 创建和加载查询的相关文章