PIG 将文本行转换为稀疏向量

2024-03-21

我必须使用 Apache PIG 将需要合并的文件。第一个文件包含书名列表，就像这样，每个书名都单独一行。

Ted Dunning,  Mahout in Action
Leo Tolstoy,  War and Peace
Douglas Adams, The hitchhiker guide to the galaxy.
James Sununu,  galaxy III for Dummies
Tom McArthur,  The War we went to

第二个文件是单词及其 ID 的列表。像这样

ted, 12
tom, 13
douglas, 14
galaxy, 15
war, 16
leo, 17
peace, 18

我需要连接这两个文件以生成如下输出：

对于“列夫·托尔斯泰，战争与作品”这一行，它应该产生

17:1,16:1,18:1

对于“汤姆·麦克阿瑟，我们参加的战争”这句话，它应该产生

13:1,16:1

换句话说，我需要使用单词作为键来执行连接。到目前为止我已经在pig中编写了以下代码

titles = LOAD 'Titles' AS ( title : chararray );  
termIDs = LOAD  'TermIDs' AS (  term:chararray,id:int);

A = SAMPLE titles 0.01;
X = FOREACH A GENERATE STRSPLIT(title,'[ _\\[\\]\\/,\\.\\(\\)]+');

这给出了加载的两个文件，并且 X 包含 BAGS 列表，每个包包含相应行上出现的术语。像这样：

((ted,dunning,mahout,in,action))
((leo,tolstoy,war,and,peace))

由于周六晚上迟到的原因，我无法在不编写UDF或使用流的情况下找出JOIN步骤的方法。是否有可能仅使用 PIG 原语来完成？

您可以展平 TOKENIZE 的结果，因此所有包都变成行，现在您可以使用 termsID 连接 X 关系。

X = foreach A generate title, flatten(TOKENIZE(title)) as term;
J = join X by (term),  termIDs by (term);
G = group J by title;
Result = foreach G generate group as title, termIDs.id;

上面的代码是在我的手机上敲的，所以没有调试。

更新1：

对于更适合使用 STRSPLIT 而不是 TOKENIZE 的情况，您可以结合使用 FLATTEN 和 TOBAG 来达到与 TOKENIZE 相同的效果，即从 STRSPLIT 返回的元组中获取一袋单词。

SPLT = foreach A generate title, FLATTEN(STRSPLIT(title,'[ _\\[\\]\\/,\\.\\(\\)]+'));
X_tmp = foreach SPLT generate $0 as title, FLATTEN(TOBAG($1..$20)) as term; -- pivots the row
X = filter X_tmp by term is not null; -- this removes the extra bag rows when title was split in less than 20 terms
J = join X by (term),  termIDs by (term) using 'replicated';
G = group J by title;
Result = foreach G generate group as title, termIDs.id;

如果任何标题超过 20 个术语，则增加 TOBAG 中的数量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

apachepig

PIG 将文本行转换为稀疏向量的相关文章

使用 Hive 自定义输入格式

Update 好吧事实证明以下不起作用的原因是因为我使用的是较新版本的InputFormat API import org apache hadoop mapred这是旧的与import org apache hadoop mapredu
Kafka Streams 在 HDFS 上查找数据

我正在使用 Kafka Streams v0 10 0 1 编写一个应用程序并希望通过查找数据来丰富我正在处理的记录该数据带时间戳的文件每天或每天 2 3 次写入 HDFS 目录我怎样才能将其加载到Kafka Streams应
在 Apache Zeppelin 上运行 Pig 查询

我正在 Apache Zeppelin 中运行以下 Pig 查询 pig query A load Pig data using PigStorage as ExamName ExamId BITSID StudentName Issue
如何为 HDFS 递归列出子目录？

我在 HDFS 中递归创建了一组目录如何列出所有目录对于普通的 UNIX 文件系统我可以使用以下命令来做到这一点 find path type d print 但我想为 HDFS 得到类似的东西递归列出目录内容hadoop dfs
Hive 表的默认分隔符是什么？

如果我们在创建表时不提及任何分隔符 hive 是否有默认分隔符创建表日志 ts bigint 行字符串按 dt 字符串国家地区字符串分区默认分隔符 001 如果创建hive表时没有设置您可以将其更改为其他分隔符例如 hive
在 Hive 中获取空值使用 REGEX 创建和加载查询

我有一个日志文件我需要在其中使用 REGEX 存储数据我尝试了下面的查询但加载了所有 NULL 值我已经检查了 REGEXhttp www regexr com http www regexr com 它对我的数据工作正常 CRE
HDFS容量：如何阅读“dfsadmin报告”

我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时我得到类似这样的信息简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
Hadoop setInputPathFilter错误

我正在使用 Hadoop 0 20 2 无法更改并且我想向我的输入路径添加一个过滤器数据如下 path1 test a1 path1 test a2 path1 train a1 path1 train a2 我只想处理所有文件trai
Sqoop Import --password-file 功能在 sqoop 1.4.4 中无法正常工作

我使用的是hadoop 1 2 1 sqoop版本是1 4 4 我正在尝试运行以下查询 sqoop import connect jdbc mysql IP 3306 database name table clients target d
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
Curl下载到HDFS

我有这个代码 curl o fileName csv url xargs hdfs dfs moveFromLocal 1 somePath 当我执行此代码时 curl 将请求中的值放入 fileName csv 中该文件将移动到 HDF
为什么组合器输入记录的数量比映射的输出数量多？

Combiner 在 Mapper 之后 Reducer 之前运行它将接收给定节点上的 Mapper 实例发出的所有数据作为输入然后它将输出发送到Reducers 因此组合器输入的记录应小于映射输出的记录 12 08 29 13 38
hadoop2.2.0追加文件发生AlreadyBeingCreatedException

我遇到了一个关于hadoop2 2 0追加操作的问题我通过 HDFS java API 将一些字节附加到 hdfs 文件首先如果在附加操作之前文件不存在我将创建目标文件代码如下 String fileUri hdfs hadoop
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
http://localhost:50070/ 的 hadoop Web UI 不起作用

命令 jps 显示以下详细信息第5144章 5464 节点管理器 5307 资源管理器 5800 Jps 显然namenode和datanode丢失了网络用户界面位于http 本地主机 50070 http localhost 5007
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
获取行 HBase 的特定列族中的列

我正在编写一个应用程序通过 JSP 显示 HBase 中特定表中的数据我想获取一行的特定列族中的所有列有什么办法可以做到这一点吗 public String getColumnsInColumnFamily Result r Stri
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使

随机推荐

什么是 href="#" 以及为什么使用它？

在许多网站上我看到链接href 这是什么意思它是干什么用的关于超链接锚标签的主要用途 a a 是作为超链接 http www w3 org MarkUp html spec html spec 7 html 这基本上意味着他们会带你去
如何在没有 equals/hashcode 的情况下删除 List 中的重复对象？

我必须删除列表中重复的对象它是来自博客对象的列表如下所示 public class Blog private String title private String author private String url private S
从 numpy 数组转换为 RGB 图像

我有三个 241 241 numpy 数组我想将它们视为图像的红色绿色和蓝色分量我已经尝试过这个 import numpy as np from PIL import Image arr np zeros len x len z 3
GWT 模块可能需要（重新）编译 REDUX

在编译模式下运行时我收到这个可怕的 GWT Module mymodule may need to be re compiled 对话框消息我已经编制了一份其他人建议在编译模式下运行的 GWT 给出此错误消息时建议尝试的操作列表我已经
如何将变量传递给 MySQL LIMIT 子句？

我正在尝试使用 pymysql 对 Mysql 数据库执行 SELECT 语句这是代码我将一个变量传递给 select 语句令我惊讶的是这是一个巨大的痛苦知道我在这里缺少什么吗 def getUrlFromDatabase n s
无法删除 MemoryMappedFile 的文件

以下代码抛出此异常该进程无法访问文件 filename 因为它正在被另一个进程使用很公平但是关闭阅读器和或 mmf 以便删除文件的正确方法是什么我认为 MemoryMappedFile 会有一个 close 方法或类似的方法但事
onHashChange 在 Safari 中工作吗？

Does onHashChange or hashChange在 Safari 中工作我在 Windows 7 上使用 Safari 4 0 4 进行了测试但它对我不起作用如果不起作用是否有任何解决方案可以跟踪hash已经改变在我
如何在黑莓中创建选项卡栏应用程序用户界面...？

如何在 BB 中制作选项卡栏基础应用程序应用程序的每个屏幕都将有此选项卡并且每个选项卡将有单独的导航控制器堆栈以便我们可以轻松地推送屏幕您必须使用水平字段管理器创建选项卡栏然后将字段添加到水平字段管理器然后将管理器设置为屏幕的标
将 DataGrid 列标题居中对齐

我需要对齐WPF DataGrid Column Header发短信至Center 我创建了一个样式并使用HeaderStyle属性如下 Style
Log4Net 不工作

我正在 Windows XP 中以管理员用户身份使用 C 开发 NET Framework 3 5 并使用 log4net 进行 NET Framework 2 0 二进制引用我曾尝试过log4net 缺少什么未创建日志文件 https
TCPDF：HTML 表格和分页符

I am creating a large HTML table and I have problem with page breaks as you can see in the following image Is there a me
获取准确的窗口区域大小 - CreateWindow 窗口大小不是正确的窗口大小

在尝试用 C 创建窗口并绘制窗口大小与我设置的大小不匹配的矩形时我注意到一些非常烦人的事情例如如果我设置 480x240 窗口并尝试通过获取 GetWindowRect hwnd rect 从上到下从左到右绘制矩形并计算宽度和高度
jQuery Post blob 对象给出 Uncaught TypeError：非法调用

我正在尝试使用 jQuery 发布文件post 并得到TypeError Illegal invocation function fbUpload token var dataURL canvas toDataURL image jpeg
我的 java 程序正在运行编译但没有显示任何内容

package myproj import java sql Connection import java sql DriverManager import java sql PreparedStatement import java sq
使用 Javascript 检查测验答案的最安全方法

在努力完成一个使用 AJAX PHP 设计匹配问答游戏的项目后我了解到我公司用于分发其产品的学习套件不允许我在后端运行服务器端脚本来安全地检查答案这都是由于不幸的等级专制造成的长话短说我必须以某种方式检查客户端的答案或找出一些棘手
使用 DinkToPdf 分隔分页符

我的 Program cs 中有这个 C var page plain var slnpath Directory GetCurrentDirectory var htmlpath slnpath HtmlTemplates page ht
Ruby：在代码块中更改类静态方法

给定 Thread 类及其当前方法现在在测试中我想这样做 def test alter current thread Thread current a stubbed method do something that involve t
如果表尚不存在则创建

我正在尝试创建一个表如果它尚不存在我目前正在检查它是否存在于DBA TABLES首先如果该查询没有返回任何内容则插入有没有办法只签入同一条语句这样我就不必将其分解为单独的查询这就是我目前所拥有的 BEGIN SELECT CO
AWS DynamoDB Objective C 中递增 Number 属性

我正在努力增加已保存在 DynamoDB 上的表中的项目的数字属性值我的代码当前是 AWSDynamoDBUpdateItemInput updateItemInput AWSDynamoDBUpdateItemInput new upd
PIG 将文本行转换为稀疏向量

我必须使用 Apache PIG 将需要合并的文件第一个文件包含书名列表就像这样每个书名都单独一行 Ted Dunning Mahout in Action Leo Tolstoy War and Peace Douglas Adam

PIG 将文本行转换为稀疏向量

PIG 将文本行转换为稀疏向量 的相关文章

随机推荐

热门标签

PIG 将文本行转换为稀疏向量的相关文章