Pig FILTER 返回我数不清的空袋子

2024-02-15

我正在尝试计算数据集中有多少个值与过滤条件匹配，但当过滤器不匹配任何条目时，我遇到了问题。

我的专栏里有很多data结构，但本例中只使用了三个：key- 该集合的数据键（不是唯一的），value- 记录的浮点值，nominal_value- 代表标称值的浮点数。

我们现在的用例是查找比标称值低 10% 或更多的值的数量。

我正在做这样的事情：

filtered_data = FILTER data BY value <= (0.9 * nominal_value);
filtered_count = FOREACH (GROUP filtered_data BY key) GENERATE COUNT(filtered_data.value);
DUMP filtered_count;

在大多数情况下，没有任何值超出标称范围，因此filtered_data为空（或 null。不知道如何辨别哪个。）。这导致filtered_count也为空/空，这是不可取的。

我怎样才能构造一个语句，在以下情况下返回 0 值：filtered_data是空/空吗？我尝试了在网上找到的几个选项：

-- Extra parens in COUNT required to avoid syntax error
filtered_count = FOREACH (GROUP filtered_data BY key) GENERATE COUNT((filtered_data.value is null ? {} : filtered_data.value));

结果是：

Two inputs of BinCond must have compatible schemas. left hand side: #1259:bag{} right hand side: #1261:bag{#1260:tuple(cf#1038:float)}

And:

filtered_count = FOREACH (GROUP filtered_data BY key) GENERATE (filtered_data.value is null ? 0 : COUNT(filtered_data.value));

这会导致空/空结果。

按照您现在的设置方式，您将丢失有关错误值计数为 0 的任何键的信息。相反，我建议保留所有键，以便您可以看到计数为 0 的肯定确认，而不是通过缺席来推断。为此，只需使用一个指标，然后SUM that:

data2 =
    FOREACH data
    GENERATE
        key,
        ((value <= 0.9*nominal_value) ? 1 : 0) AS bad;
bad_count = FOREACH (GROUP data2 BY key) GENERATE group, SUM(data2.bad);

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachepig

Pig FILTER 返回我数不清的空袋子的相关文章

Cygwin 和 Apache Pig - 令人困惑的伪 grunt>

我正在尝试在运行 Vista 操作系统的 Windows PC 上安装 Apache Pig 以便将其用作学习工具我不打算在这台机器上使用 Pig 进行任何严肃的数据处理单节点单 JVM x local设置是我想要的我有 Windo
在 Pig 中提取 CSV 文件的第一行

我有几个 CSV 文件标题始终是文件中的第一行在 Pig 中将该行作为字符串从 CSV 文件中取出的最佳方法是什么不能使用 sed awk 等进行预处理我尝试使用常规 PigStorage 和 Piggybank CsvLoader
是否可以将参数值传递给 UDF 构造函数？

我编写了一个带有构造函数参数的 UDF 我已经成功初始化并使用它grunt as grunt gt register mylib jar grunt gt define Function com company pig udf MyFunc
在 Pig 中删除单列

我正在按大约 20 个 ID 的列表过滤表现在我的代码如下所示 A LOAD ids txt USING PigStorage B LOAD massive table USING PigStorage C JOIN A BY 0 B B
将 IN 子句与 PIG FILTER 结合使用

PIG 支持 IN 子句吗 filtered FILTER bba BY reason not in a b c d 或者我应该把它分成多个 OR Thanks 您可以使用 Apache DataFu 中的以下 udf 代替这将帮助您避免
根据 Pig 中的数据将关系拆分为不同的输出文件

目前我的数据如下所示 1 A a 1 A b 2 B b 2 B c 3 A a 3 B b 3 C c 我想根据第一列中的数据将它们存储在不同的文件中所以我希望我的输出与此类似 1 out包含 A a A b 2 out包含 B b
在 hadoop 中使用 Pig 中的正则表达式

我有一个包含用户 tweetid tweet userid 的 CSV 文件 396124436476092416 Think about the life you livin but don t think so hard it hurt
从udf访问hdfs文件

我想通过 udf 调用访问文件这是我的脚本 files LOAD docs in USING PigStorage AS id stopwords id2 file buzz FOREACH files GENERATE pigbuzz
在 Pig 中解析复杂的 JSON 字符串

我想在 Pig 中解析一串复杂的 JSON 具体来说我希望 Pig 将我的 JSON 数组理解为一个包而不是单个字符数组使用 JsonLoader 时我可以通过指定架构轻松完成此操作如下所示这个问题 https stackover
将行值聚合到列中

我有这样的数据 2013 11 localhost kern 2013 11 localhost kern 2013 11 192 168 0 59 daemon 2013 12 localhost kern 2013 12 localho
PIG 中的 GROUP 和 COGROUP 有什么区别？

我知道 Group 不能处理多个元组因此我们在 PIG 中有 COGROUP 然而今天检查时 GROUP 命令对我有用我正在使用 PIG 0 12 0 我的命令和输出如下 grunt gt grpvar GROUP C by 2 B
在 Pig 中编写 udf 有点像教程

我是 Pig 新手并且正在尝试编写 udf 函数所以基本上这是问题陈述我有一个这样的虚拟数据 user id movie id date time stamp 所以我想做的就是这个如果交易是在 9 am and 11 am gt b
如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce？

有人可以解释 MapReduce 如何与 Cassandra 6 配合使用吗我已经阅读了字数统计示例但我不太明白 Cassandra 端与客户端端发生的情况 https svn apache org repos asf cassan
strsplit 问题 - Pig

我有以下元组 H1 我想将其 0 拆分为元组但是我总是收到错误消息 DUMP H1 item32 item31 1 m FOREACH H1 GENERATE STRSPLIT 0 50 ERROR 1000 解析期间出错第 1 行第
使用loadfunc pig UDF将protobuf格式文件加载到pig脚本中

我对猪的了解很少我有 protobuf 格式的数据文件我需要将此文件加载到 Pig 脚本中我需要编写一个 LoadFunc UDF 来加载它说函数是Protobufloader 我的 PIG 脚本是 A LOAD abc proto
JAVA 中的 PIG UDF 错误 1070

我创造了UDF UPPER jar文件输入 home GED385 pigScripts GED385 snshadoope1 pigScripts jar tf home GED385 pigScripts UDF UPPER jar g
如何使用通配符投影别名？

一旦我做了一个join A by id B by id 我得到一个带有字段的别名A f B f 有没有办法只将其投影到A fields C join A by id B by id D filter C by B n lt 1000 E f
加入 PIG 对阵 COGROUP

当我在 pig 中使用 COGROUP 而不是 JOIN 时有什么优势性能没有地图减少吗 http developer yahoo com hadoop tutorial module6 html http developer ya
在 Apache Zeppelin 上运行 Pig 查询

我正在 Apache Zeppelin 中运行以下 Pig 查询 pig query A load Pig data using PigStorage as ExamName ExamId BITSID StudentName Issue
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会

随机推荐

用于检查数字是否在特定范围内的位旋转

我发现了一些有趣的事情 source common unicode utf h ICU 库文件 Unicode 国际组件位旋转旨在检查数字是否在特定范围内 Is a code point in a range of U d800 U db
将 document() 参数传递给 XProc 管道中的 xslt

我已经建立了一个 XProc 管道其中我有一个
如何在 SQL Server 中批量更新插入？

我正在使用MERGE在 sql server 2008 数据库中更新插入行的语句然而我的存储过程是单行操作而实际上我更喜欢对这些操作进行批处理这是否可能如果可以我该怎么做您可以在您的过程中使用表值参数吗看看这里http ww
如何有条件地从列中删除前两个字符

我有一些电话记录的以下数据我想从每条记录中删除前两个值因为它们是国家地区代码我可以使用 Scala 执行此操作的方式是什么 Spark https en wikipedia org wiki Apache Spark or Hive
将一列文本 URL 转换为 Shiny 中的活动超链接

我正在为路径丰富程序创建一个用户界面结果如下表所示下面的代码片段显示我正在使用 DT renderDataTable 和 DT datatable 在选项卡中输出表 spia out 只是一个反应函数它运行通路富集并生成数据帧 spi
jTemplates 转义 {$

有没有办法使用 jTemplates 来转义这样我就可以在 onBlur 中使用内联 javascript a href http www telegraaf nl telegraaf a 在 processTemplate 之后得到这个
如何延迟 pine 脚本中生成的警报，如果图表时间范围为 10m，任何人都可以帮助将警报延迟 n 秒吗？

我在一秒钟内收到太多警报相同的代码指标应用于不同的股票代码并且我希望将每个警报延迟至少 5 秒我尝试过使用 pinecoders com 提供的这个指标代码https www pinecoders com faq and code
区间并集

我有一个代表间隔的类该类有两个可比较类型的属性 start 和 end 现在我正在寻找一种有效的算法来获取一组此类间隔的并集提前致谢按其中一个术语例如开始对它们进行排序然后在浏览列表时检查与其右侧邻居的重叠 class t
您可以设置标签的样式吗？

Can you style a
如何在 Visual Studio 中包含子目录？

我必须包含许多头文件它们位于不同的子目录中 Visual Studio 中是否有一种方法我使用的是 2005 版来设置一个包含路径 Visual Studio 也会在子目录中搜索头文件从设计的角度来看在 Visual Studio
ffmpeg持续将刷新图像流式传输到rtmp

有没有办法stream一张图像和refresh一直或间歇性地进行这会连续传输图像但从不刷新其源 ffmpeg loop 1 i http test dev overlay jpg f flv rtmp 192 168 99 100 19
iOS 将 PKRevealController 与 Storyboard 和自动布局集成

我正在尝试将 PKRevealController 集成到我的现有项目中 https github com pkluz PKRevealController https github com pkluz PKRevealController
如何在java中绘制unicode字符？

除了将字符复制到剪贴板并将其粘贴到我的字符串中之外有没有办法绘制希腊字母或者就此而言任何 unicode 字符我知道我想要绘制的角色的代码是U 03F4根据here http unicode table com en 03F4 我已
如何在 Perl 中正确使用编码为 Windows-1251 的环境变量？

我在 Windows 中设置了一个环境变量TEST abc 它使用Windows 1252代码页现在当我运行 Perl 程序时test pl这个环境值来得恰到好处当我调用另一个 Perl 代码时 test2 pl from test1
如何将 PictureBox 图像保存和检索到 Sql Server 数据库 Varbinary(Max) 列 VB.NET

在我的Windows应用程序中我必须在Windows窗体PictureBox中显示图像该图像将通过OpenFile对话框浏览然后将PictureBox图像保存到Sql Server 2008 R2 Varbinary Max 列并显示
如何让线程继续在后台工作并在列表框中显示结果？

我必须开发一个程序来根据我给出的 Select 语句持续观察数据库中的值监视的值可以随时更改我的程序必须根据我给出的 select 语句的结果来感知更改我想使用 TThread 来观看选择结果因为我的系统还有其他功能用户不仅需要观
在同一台计算机上安装 Rad Studio 2007 和 Rad Studio 2010

我想在已安装 Rad Studio 2007 的计算机上安装 Rad Studio 2010 有一些兼容性问题吗提前致谢再见 See 尼克霍奇斯的回答 https stackoverflow com questions 139844
python 2 / python 3 的便携式文档测试可能吗？

def fib r n memo 0 0 1 1 recursive fibonacci numbers generation with memoisation gt gt gt fib r n for n in range 10 0 1
有哪些开源 Node.js CI 项目？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案什么开源持续集成服务器用 Node js 编写的你知道吗它们的特点优缺点是什么您的经验是什么他们
Pig FILTER 返回我数不清的空袋子

我正在尝试计算数据集中有多少个值与过滤条件匹配但当过滤器不匹配任何条目时我遇到了问题我的专栏里有很多data结构但本例中只使用了三个 key 该集合的数据键不是唯一的 value 记录的浮点值 nominal value 代表标称

Pig FILTER 返回我数不清的空袋子

Pig FILTER 返回我数不清的空袋子 的相关文章

随机推荐

热门标签

Pig FILTER 返回我数不清的空袋子的相关文章