用 Pig Latin 每组写入一个文件

2024-02-11

问题：我有许多包含 Apache Web 服务器日志条目的文件。这些条目不按日期时间顺序排列，并且分散在文件中。我正在尝试使用 Pig 读取一天的文件，按日期时间对日志条目进行分组和排序，然后将它们写入以其包含的条目的日期和小时命名的文件中。

Setup:导入文件后，我使用正则表达式获取日期字段，然后将其截断为小时。这会生成一个集合，其中一个字段中包含记录，而另一个字段中的日期被截断为小时。从这里我将在日期时间字段上进行分组。

第一次尝试：我的第一个想法是使用 STORE 命令，同时使用 FOREACH 迭代我的组，很快发现这对 Pig 来说并不酷。

第二次尝试：我的第二次尝试是使用 Piggybank 中的 MultiStorage() 方法，在我查看该文件之前，该方法效果很好。问题是 MulitStorage 想要将所有字段写入文件，包括我用来分组的字段。我真正想要的只是写入文件的原始记录。

问题：那么...我是否使用 Pig 来做一些不该做的事情，或者有没有更好的方法让我使用 Pig 来解决这个问题？现在我有了这个问题，我将编写一个简单的代码示例来进一步解释我的问题。一旦我有了它，我就会把它发布在这里。提前致谢。

开箱即用，Pig 没有很多功能性。它完成基本的工作，但很多时候我发现自己必须编写自定义 UDF 或加载/存储函数才能从 95% 的方式达到 100% 的方式。我通常觉得这是值得的，因为仅仅编写一个小的存储函数比编写一个整个 MapReduce 程序要少很多 Java。

你的第二次尝试非常接近我会做的。您应该复制/粘贴源代码MultiStorage或者使用继承作为起点。然后，修改putNext方法删除组值，但仍写入该文件。很遗憾，Tuple http://pig.apache.org/docs/r0.10.0/api/org/apache/pig/data/Tuple.html没有remove or delete方法，因此您必须重写整个元组。或者，如果您只有原始字符串，只需将其拉出并输出包裹在Tuple.

一些有关编写加载/存储函数的一般文档，以防您需要更多帮助：http://pig.apache.org/docs/r0.10.0/udf.html#load-store-functions http://pig.apache.org/docs/r0.10.0/udf.html#load-store-functions

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用 Pig Latin 每组写入一个文件的相关文章

如何以编程方式检查应用程序是否在调试模式下运行？

我必须在应用程序中的某个位置确定我的应用程序是在调试模式还是实时模式下运行是否有任何函数或代码可用于检查在开关两种情况下都会返回 true false 如果是这样请帮助我提前致谢从问题中尚不清楚调试模式是否指的是应用程序是否可
面试问题 - 在排序数组 X 中搜索索引 i，使得 X[i] = i

昨天面试时我被问到了以下问题考虑一个 Java 或 C 数组X它已排序并且其中没有两个元素是相同的如何最好地找到索引i这样该索引处的元素也是i 那是X i i 作为澄清她还给了我一个例子 Array X 3 1 0 3 5 7 in
修复 java 内存泄漏的学习网站

学习修复 java 内存泄漏的最佳地点是什么我一直试图在网络上找到好的资源但令我失望的是我发现正在讨论玩具示例我还能够对小型玩具转储进行故障排除但现实世界的应用程序转储更具挑战性并且提供的线索很少我尝试过 Jhat JMap
Android 上的 setTimeOut() 相当于什么？

我需要等效的代码setTimeOut call function milliseconds 对于安卓 setTimeOut call function milliseconds 您可能想查看定时任务 http developer andro
如何检测线程是否被IO阻塞？

在Java中线程可以有不同的状态新的可运行的阻塞的等待的 TIMED WAITING 的终止的然而当线程被IO阻塞时其状态为 RUNNABLE 如何判断是否被IO阻塞 NEW 线程已创建但尚未处理可运行线程正在占用CP
为移动设备扩展 libgdx UI？

眼下desktop应用程序的版本很好按钮缩放得很好但是当我部署到android它们很小几乎无法使用 DesktopLauncher public class DesktopLauncher public static void mai
如何通过keytool命令删除已经导入的证书/别名？

我正在尝试通过 keytool 命令删除已导入的证书 keytool delete noprompt alias initcert keystore keycloak jks 但低于异常 keytool 错误 java lang Excep
使用 ScheduledExecutorService 安排每月任务

我想在该月的某一天的特定时间安排一项任务每次运行之间的间隔可以设置在 1 到 12 个月之间在java中可以使用ScheduledExecutorService以固定的时间间隔调度任务既然一个月的天数不固定那么如何实现呢提前致谢
lombok - 多个镜头中的 @Builder 模式

I use Builder of 龙目岛项目 https github com rzwitserloot lombok 所以考虑我有这个例子 Builder public class Client private Getter Setter
Android - Java - 发送 facebook 聊天消息的意图（facebook 禁用 xmpp）

Facebook 已弃用 xmpp API 有没有办法打开意图或将数据传递到fb 以在Android设备上发送聊天消息设备上安装的 Facebook 和 Messenger 应用谢谢您需要将 uri 传递给意图这里10000572
带有 spring-kafka 的 Kafka 死信队列 (DLQ)

最好的实施方式是什么死信队列 DLQ Spring Boot 2 0 应用程序中的概念使用 spring kafka 2 1 x 来处理无法处理的所有消息 KafkaListener某些bean发送到某些预定义的Kafka DLQ主题的方
java3d 中的面部着色

使用java3d 如何不在每个顶点基础上着色而是在每个面基础上着色我尝试学习 java3d 但我生成的 Shape3d 看起来并不符合预期我想用不同的颜色给不同的三角形着色但我不知道该怎么做纹理看起来有点大材小用而且我根本没有掌
Java反序列化中避免重复对象

我有两个列表 list1 和 list2 其中包含对某些对象的引用其中某些列表条目可能指向同一对象然后由于各种原因我将这些列表序列化为两个单独的文件最后当我反序列化列表时我想确保我不会重新创建超出需要的对象换句话说 List
在java中设置Process对象的安全性

有人可以告诉我如何限制通过进程对象访问系统属性吗如果我通过进程对象运行以下代码我可以抛出安全异常吗 System getProperty user home 请告诉我如何为流程对象配置证券在ProcessBuilder类文档中环境方
java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2
SAXParseException：找不到元素“定义”的声明

我对 camunda 和 DMN 完全陌生我试图在 spring boot 中运行 DMN 示例链接在这里 https github com camunda camunda bpm examples tree master dmn en
PostgreSQL 使用 JPA 和 Hibernate 抛出“列的类型为 jsonb，但表达式的类型为 bytea”

这是我的实体类映射到表中postgres 9 4 我正在尝试将元数据存储为jsonb在数据库中输入 Entity Table name room categories TypeDef name jsonb typeClass JsonBi
1° 夏令时 Java 和 JS 表现出不同的行为

假设巴西利亚 GMT 0300 夏令时于 21 10 2012 00 00 00 此时时钟应提前一小时 Java new Date 2012 1900 9 21 0 0 0 Sun Oct 21 01 00 00 BRST 2012 Chr
gwt - 在 RPC 调用中使用 List？

我有一个 RPC 服务方法如下 public List
文件构造函数说明

我无法理解以下文件构造函数 public File String parent String child and public File File parent String child 参数有什么作用parent and child该文件

随机推荐

如何在 DropDownList 控件中列出 Active Directory 中的所有用户

我正在使用 Visual Studio 2005 C 我正在尝试检索 Active Directory 中的用户列表并将其插入到下拉列表控制我可以知道如何提取用户以及如何将它们插入到下拉列表控制 EDIT 我希望完成许多功能部分首先是列
bigQuery Google Cloud 如何与其他用户共享数据集？

我使用我的 userA 帐户在 Google Cloud 中定义了一个 bigQuery 数据集我希望属于同一组的同事 userB 能够查看我定义的数据集使用bq命令行界面中 userB 可以看到项目但看不到数据集如何与用户B共享用
如何获取表单内所有输入的ID？

如何获取数组中表单内输入元素的所有 id ids myform input id map function return this id get
Angular：嵌入、设置SVG元素的颜色

我有一个component html这超出了我的 svg 组件
TinyMCE gulp 配置

我正在构建一个 Web 应用程序我想使用 TinyMCE 我正在使用 gulp 和 browserify 我已经通过 npm 下载了 TinyMCE 并且在我的 app js 文件中需要它并运行gulp命令但我收到此错误Failed to
数组无法解析？这是构建路径问题吗？

当我打字时Arrays sort arr 在 Eclipse 中我收到此错误Arrays cannot be resolved当我左键单击红色下划线时Arrays我不明白这个词import java util Arrays正如预期的那样
Spring AOP：仅建议使用上下文 Bean？

我是 Spring AOP 的新手我尝试使用方面进行日志记录这是我的配置方面 Aspect public class LoggerAspect Pointcut execution aop LoggerAspTest private
如何在不安装条形码扫描仪应用程序的情况下使用ZXing库

我一直在开发一个 Android 应用程序来扫描条形码和 QR 码并将结果发送到其他应用程序 HTTP 我已经通过互联网阅读了大部分文档并在 stackoverflow 中阅读了它并使其正常工作我可以在我的设备上运行独立的 zxing
原则 2 多级继承

我在多级继承方面遇到一些麻烦 ORM Entity ORM Table name et date ORM InheritanceType JOINED ORM DiscriminatorColumn name type type strin
Android 对话框 - 自定义背景而不是变暗或模糊

我创建了自己的自定义对话框它工作正常但我想将变暗的背景更改为自定义图案例如图像文件或 xml 形状我怎样才能做到这一点请注意我不想改变调光强度但我只想用一种模式替换这种调光我找到了解决这个问题的方法我从 vipul mit
动态创建 Yii FormModel 对象 (CFormModel)

我正在开发一个涉及在高抽象级别生成表单的应用程序它是一个 CMS 应用程序我想动态创建 CFormModel 对象并即时设置表单字段我想我可以通过扩展 CFormModel 然后动态创建代表表单字段的类属性 Yii 行话中的属性来
从 url 加载 Rdata 文件

我在加载文件时遇到困难因此它不会丢失其尺寸所以这就是我现在所处的位置 gt mood data lt read table http www psychology mcmaster ca bennett psy710 datasets
检查 android.graphics.path 与其自身的交集

我想检查路径是否与自身相交如果是则碰撞在 x y 只是为了突出显示我如何检查一条路径是否与另一条路径相交也非常有趣这是一个屏幕截图可以更好地解释我的意思 https i stack imgur com JrEmN png http
Visual Studio Cordova：打包 IOS 应用程序时，如何将配置文件添加到 XCode 的“构建设置”的代码签名部分？

使用 Visual Studio Cordova 时我按照以下说明将应用程序发布到 Apple App Store http taco visualstudio com en us docs tutorial package publis
iOS 连接数据库的正确架构？

我是一名 Web 开发人员正在着手创建移动 iOS Android 应用程序因此我想要了解的是应该如何构建移动应用程序来访问发布更新删除存储在中央服务器上的数据出于说明目的假设我正在创建一个移动食谱应用程序名为 MyRe
为 Selenium 创建 HTTP Basic auth Chrome 扩展（MWE 可用）

我正在尝试使用 Google Chrome 运行 Selenium 测试我希望使用 HTTP 基本身份验证登录这在 Selenium 中没有实现因此建议加载扩展我正在使用来自的代码 https github com RobinDev
Linq to SQL 外键

数据库表的 DDL Users id int identity name varchar unique PCs id int idnetity name varchar unique userid FK to Users Apps id i
将哈希表转换为字符串数组

如何将哈希表转换为字符串数组假设 l table 是一个哈希表如果我尝试 l array l table format table 那么 l array 是一个数组但是一个 FormatEntryData 对象的数组如果我做 str
多线程环境下的增量和减量

我正在尝试在多线程环境中 int 变量的经典增量减量这是我的示例代码 public class SyncIncDec public static void main String args SyncCounter count new S
用 Pig Latin 每组写入一个文件

问题我有许多包含 Apache Web 服务器日志条目的文件这些条目不按日期时间顺序排列并且分散在文件中我正在尝试使用 Pig 读取一天的文件按日期时间对日志条目进行分组和排序然后将它们写入以其包含的条目的日期和小时命名的文件中

用 Pig Latin 每组写入一个文件

用 Pig Latin 每组写入一个文件 的相关文章

随机推荐

热门标签

用 Pig Latin 每组写入一个文件的相关文章