strsplit 问题 - Pig

2024-02-29

我有以下元组 H1，我想将其 $0 拆分为元组。但是我总是收到错误消息：

DUMP H1:
(item32;item31;,1)

m = FOREACH H1 GENERATE STRSPLIT($0, ";", 50);

ERROR 1000：解析期间出错。第 1 行第 40 列有词汇错误。遇到：之后：“\”;“

有人知道剧本出了什么问题吗？

当猪解析例程遇到这个分号时，存在转义问题。

您可以对分号使用 unicode 转义序列：\u003B。但是，这也必须进行斜杠转义并放入单引号字符串中。或者，您可以根据尼尔的回答，在多行上重写命令。在所有情况下，这必须是单引号字符串。

H1 = LOAD 'h1.txt' as (splitme:chararray, name);

A1 = FOREACH H1 GENERATE STRSPLIT(splitme,'\\u003B'); -- OK
B1 = FOREACH H1 GENERATE STRSPLIT(splitme,';');       -- ERROR
C1 = FOREACH H1 GENERATE STRSPLIT(splitme,':');       -- OK
D1 = FOREACH H1 {                                     -- OK
    splitup = STRSPLIT( splitme, ';' );
    GENERATE splitup;
}

A2 = FOREACH H1 GENERATE STRSPLIT(splitme,"\\u003B"); -- ERROR
B2 = FOREACH H1 GENERATE STRSPLIT(splitme,";");       -- ERROR
C2 = FOREACH H1 GENERATE STRSPLIT(splitme,":");       -- ERROR
D2 = FOREACH H1 {                                     -- ERROR
    splitup = STRSPLIT( splitme, ";" );
    GENERATE splitup;
}

Dump H1;
(item32;item31;,1)

Dump A1;
((item32,item31))

Dump C1;
((item32;item31;))

Dump D1;
((item32,item31))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachepig

strsplit 问题 - Pig 的相关文章

Pig：使用外部模式文件加载数据文件

我有一个数据文件和相应的架构文件存储在不同的位置我想使用架构文件中的架构加载数据我尝试使用 A LOAD
如何从 PIG 中生成的包（其大小可能会有所不同）中提取第一个元组？

我正在生成一个信息包其大小包内元组的数量可能会有所不同由此我想动态提取第一个元素我该怎么做呢使用DataFu UDF FirstTupleFromBag http datafu incubator apache org do
Pig 相当于 SQL GREATEST / LEAST？

我试图找到相当于猪SQL 函数GREATEST and LEAST 这些函数是聚合 SQL 函数的标量等效项MAX and MIN 分别本质上我希望能够这样说 x LOAD file a b c csv USING PigStorage
Pig、Cassandra 和 DataStax 拆分控制

我一直在使用 Pig 和我的 Cassandra 数据来完成各种令人惊奇的分组壮举而这些壮举几乎不可能用命令式的方式编写我正在使用 DataStax 的 Hadoop 和 Cassandra 集成我不得不说它令人印象深刻向那些家伙致
从其他 Pig 脚本调用 Pig Latin 脚本

我有一个关于 PIG Latin 的问题有什么方法可以从另一个猪脚本中调用某个猪脚本吗我知道可以运行用户定义的函数 UDF 例如 REGISTER myudfs jar A LOAD student data AS name chara
是否可以将参数值传递给 UDF 构造函数？

我编写了一个带有构造函数参数的 UDF 我已经成功初始化并使用它grunt as grunt gt register mylib jar grunt gt define Function com company pig udf MyFunc
在 Pig 中删除单列

我正在按大约 20 个 ID 的列表过滤表现在我的代码如下所示 A LOAD ids txt USING PigStorage B LOAD massive table USING PigStorage C JOIN A BY 0 B B
Hadoop Pig：传递命令行参数

有没有办法做到这一点例如传递要处理的文件的名称等这出现在另一个问题 https stackoverflow com questions 3515481 pig latin load multiple files from a date
如何加载hive表中的多行列数据？具有换行符的列

我在 Excel 文件中有一个列不是最后一列其中包含跨越几行的数据列的某些单元格为空白有些单元格具有单行条目当保存为 CSV 文件或制表符分隔 txt 与 Excel 时所有多行数据和少数单行条目都会在双引号中生成所有空白字段
使用各种语言在 Hadoop 中运行作业的优缺点是什么？

到目前为止我一直使用 Pig 或 Java 进行 MapReduce 专门针对 Hadoop 集群运行作业我最近尝试通过 Hadoop 流使用 Python Map Reduce 这也很酷所有这些对我来说都有意义但我对何时想要使用一
PIG UDF 处理多行元组拆分为不同的映射器

我有一个文件其中每个元组跨越多行例如 START name Jim phone 2128789283 address 56 2nd street New York USA END START name Tom phone 6308789
在 hadoop 中使用 Pig 中的正则表达式

我有一个包含用户 tweetid tweet userid 的 CSV 文件 396124436476092416 Think about the life you livin but don t think so hard it hurt
从udf访问hdfs文件

我想通过 udf 调用访问文件这是我的脚本 files LOAD docs in USING PigStorage AS id stopwords id2 file buzz FOREACH files GENERATE pigbuzz
可以使用 PIG 读取的文件格式

使用PIG可以读取哪些类型的文件格式如何以不同的格式存储它们假设我们有 CSV 文件我想将其存储为 MXL 文件如何做到这一点每当我们使用 STORE 命令时它都会创建目录并将文件存储为part m 00000 我如何更改文件名
如何用猪拉丁语组合/连接两个袋子

我有两个数据集 A uid url B uid url 现在我做了一个cogroup C COGROUP A BY uid B BY uid 我想将 C 更改为 group AS uid DISTINCT A url B url 我的问题是
Pig FILTER 返回我数不清的空袋子

我正在尝试计算数据集中有多少个值与过滤条件匹配但当过滤器不匹配任何条目时我遇到了问题我的专栏里有很多data结构但本例中只使用了三个 key 该集合的数据键不是唯一的 value 记录的浮点值 nominal value 代表标称
使用loadfunc pig UDF将protobuf格式文件加载到pig脚本中

我对猪的了解很少我有 protobuf 格式的数据文件我需要将此文件加载到 Pig 脚本中我需要编写一个 LoadFunc UDF 来加载它说函数是Protobufloader 我的 PIG 脚本是 A LOAD abc proto
Pig：如何将数据连接到嵌套包中的键上

我只是想合并来自的值data2 to data1 on the value1 value2 两者中都可见的键data1 and data2 注意嵌套结构容易吧在面向对象的代码中它是一个嵌套的 for 循环但在 Pig 中感觉就像解
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
如何在 Scala 中编写 Pig UDF

我正在尝试在 Scala 中编写 Pig UDF 使用 Eclipse 我已将 pig jar 添加为 java 构建路径中的库这似乎解决了以下 2 个导入问题导入 org apache pig EvalFunc 导入 org apac

随机推荐

适用于 Windows VHD API 的 Java 库

我需要从 Java 安装和导航 Windows VHD 任何人都知道封装了 Java 库Windows 虚拟硬盘 API http msdn microsoft com en us library dd323700 28v VS 85 29
TortoiseSVN：好的“补丁文件”查看器？

默认的补丁文件查看器很混乱即没有并排差异视图等我尝试在设置 gt 统一差异查看器 gt 自定义中设置 BeyondCompare exe 的路径但 Beyond Compare 的行为也与默认差异工具相同有没有办法至少允许补丁文
可以从 LLVM-IR 自动生成 llvm c++ api 代码吗？

clang 3 0 在线演示页面http llvm org demo index cgi http llvm org demo index cgi提供输出 LLVM C API 代码的选项表示输入程序的 LLVM IR 生成 LLVM C
jQuery select2 AJAX 不工作

我正在使用 jQuery select2 插件并尝试让 AJAX 处理我的 ext 数据这显然不起作用我只是想知道是否有人可以指出我做错了什么或遗漏了什么 NOTE这仅适用于选择 v3 5 2 my js cliselect selec
使用图层列表显示一些可绘制图像

Android Studio 2 0 预览版 3b Hello 我创建了以下布局我想将其用作我的应用程序的背景我正在使用layer list我想在两个位置展示一碗豌豆预览中一切看起来都不错但是当我在 genymotion 或一些廉价
MATLAB 中是否有函数可以将 .raw 文件转换为矩阵？

我想将 raw 文件作为矩阵帧 x 空间 x 光谱导入 MATLAB 有内置函数可以做到这一点吗如果您指的是来自相机的原始图像文件 http en wikipedia org wiki Raw image format 我会检查提交的
material-component-datetime-picker-您在需要流的地方提供了“未定义”。您可以提供 Observable、Promise、Array 或 Iterable

我尝试根据文档和以下包含有关环境的信息使用材料组件日期时间选择器 Angular 角度版本 10 1 0 材质版本 10 1 0 角度材料组件力矩适配器 4 0 1 角度材料组件日期时间选择器 4 0 2 以下是查看日期时间选择器的代码
ASP.NET MVC 5 Azure App ZAP 扫描指示代理泄露漏洞 - 我们如何防止这种情况？

ZAP 扫描报告表明检测到 2 个代理服务器或对其进行了指纹识别它说它对我们的 url 执行了 GET 和 POST 方法并使用 TRACE 攻击带有 Max Forwards 标头的 OPTIONS 和 TRACK 方法我们已经通
在 Sitecore 页面编辑器中保存返回错误

在页面编辑器中保存页面时出现错误不知何故当我从演示 gt 详细信息编辑页面并将其显示在页面编辑器中时它工作正常错误日志位于下面 ERROR After parsing a value an unexpected character
类型或命名空间名称“Mvc”不存在

我最近安装了 Visual Studio 2013 从网上下载了一个示例项目后当我运行它时它给了我以下错误 The type or namespace name Mvc does not exist in the namespace S
了解崩溃报告[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案当我使用 S3 getObjectRequest 将 iPhone 5 连接到电缆时应用程序崩溃它工作正常但是当我断开电缆以通过 wifi 使用
使用last_insert_id()插入重复的密钥更新

我正在尝试创建一个函数 CREATE FUNCTION func param1 INT param2 INT param3 TEXT RETURNS int 11 BEGIN INSERT INTO table1 column1 colum
如何在 Sitecore 中将字段设置为“只读”？

在我的用户模板中我有一个 userid 字段它是一个单行文本控件我想将此字段设置为使用此模板创建的所有用户项目的只读我怎样才能做到这一点打开安全编辑器选择您想要授予只读访问权限的角色确保您在安全编辑器中可以看到字段
为什么 Mac 上的 clang 会自动包含一些缺失的标头？

我注意到clang 包括缺少的标头
比较 thymeleaf 中的 int 和 string

我使用 thymeleaf 3 和 spring boot 2 有一个整数和一个字符串进行比较 i tried car id generic value 但它总是假的这应该可以帮助您 strings equals generic valu
两个具有相同id的元素，想要选择一个包含在特定div中的元素

我有这样的东西 div div
在r中合并数据框和查找表，保留数据框中的所有记录

我有一个 59720 ob s 的数据框如下所示我想为查找表中的每个观察值分配一个 MARKETNAME gt data a DAY HOUR LEAD Row Count DATE ITIME HOMEPHONE CITY STATE
使用生成的波形数据在 .NET 中播放声音

如何根据 NET 程序根据用户输入和数学函数生成的波形数据来播放声音我所说的波形数据是指固定间隔时间序列可能是 44 1 kHz 中的 SPL 声压级值我认为这需要某种流缓冲区安排请注意这必须是现场实时的因此仅创建一个
是否可以将通用函数分配给变量？

func function1 arg Int gt Int return arg func function2
strsplit 问题 - Pig

我有以下元组 H1 我想将其 0 拆分为元组但是我总是收到错误消息 DUMP H1 item32 item31 1 m FOREACH H1 GENERATE STRSPLIT 0 50 ERROR 1000 解析期间出错第 1 行第

strsplit 问题 - Pig

strsplit 问题 - Pig 的相关文章

随机推荐

热门标签