从udf访问hdfs文件

2024-01-17

我想通过 udf 调用访问文件。这是我的脚本：

files = LOAD '$docs_in' USING PigStorage(';') AS (id, stopwords, id2, file);
buzz = FOREACH files GENERATE pigbuzz.Buzz(file, id) as file:bag{(year:chararray, word:chararray, count:long)};

该罐子已注册。该路径是相对于我的 hdfs 的，文件确实存在于此。电话已拨通。但似乎该文件没有被发现。也许是因为我正在尝试访问 hdfs 上的文件。

如何从 UDF java 调用访问 hdfs 中的文件？

里面一个EvalFunc http://pig.apache.org/docs/r0.11.0/api/org/apache/pig/EvalFunc.html您可以通过以下方式从 HDFS 获取文件：

FileSystem fs = FileSystem.get(UDFContext.getUDFContext().getJobConf());
in = fs.open(new Path(fileName));
BufferedReader br = new BufferedReader(new InputStreamReader(in));
....

您还可以考虑将文件放入分布式缓存中，在这种情况下您必须覆盖获取缓存文件() http://pig.apache.org/docs/r0.11.0/api/org/apache/pig/EvalFunc.html#getCacheFiles%28%29在您的 EvalFunc 类中。

E.g:

@Override
public List<String> getCacheFiles() {
  List<String> list = new ArrayList<String>(2);
  list.add("/cache/pig/wordlist1.txt#w1");
  list.add("/cache/pig/wordlist2.txt#w2");
  return list;
}

那么你可以只传递文件的符号链接（w1 and w2）以便从每个工作节点的本地文件系统：

BufferedReader br = new BufferedReader(new FileReader(fileName));

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

apachepig

HDFS

从udf访问hdfs文件的相关文章

无法使用 PDI 步骤连接到 HDFS

我已经配置成功了Hadoop 2 4 in an Ubuntu 14 04 虚拟机 from a 视窗8系统 Hadoop 安装工作绝对正常而且我还可以从 Windows 浏览器查看 Namenode 附图如下所以我的主机名是 ubu
错误：java.io.IOException：错误值类：类 org.apache.hadoop.io.Text 不是类 Myclass

我的映射器和减速器如下但我遇到了某种奇怪的异常我不明白为什么它会抛出这种异常 public static class MyMapper implements Mapper
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
尝试将稀疏 df 保存到 hdf5 时，获取“SparseDtype”对象没有属性“itemsize”？

我正在尝试将大型稀疏数据帧保存到 hdf5 文件但出现归因错误 one hot pd get dummies my DF columns cat sparse True one hot to hdf content data h5 tab
hive查询无法通过jdbc生成结果集

我是 Hive 和 Hadoop 的新手在我的教程中我想将表创建为 import java sql SQLException import java sql Connection import java sql ResultSet im
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
hive创建表的多个转义字符

我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表数据值包含单引号双引号括号等使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
在 Amazon EMR 上使用 java 中的 hbase 时遇到问题

因此我尝试使用作为 MapReduce 步骤启动的自定义 jar 来查询 Amazon ec2 上的 hbase 集群我的 jar 在地图函数内我这样调用 Hbase public void map Text key BytesWri
猪参考

我正在学习 Hadoop Pig 并且我总是坚持引用元素请查找下面的示例 groupwordcount group chararray words bag of tokenTuples from line token chararray
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
将数据从 oracle 移动到 HDFS，处理并从 HDFS 移动到 Teradata

我的要求是将数据从 Oracle 移至 HDFS 处理HDFS上的数据将处理后的数据移至 Teradata 还需要每 15 分钟执行一次整个处理源数据量可能接近50GB 处理后的数据也可能相同在网上搜索了很多之后我发现 PRARO
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做
运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
如何创建 HIVE 表来读取分号分隔值

我想创建一个 HIVE 表该表将以分号分隔的值读取但我的代码不断给出错误有没有人有什么建议 CREATE TABLE test details Time STRING Vital STRING sID STRING PARTITION
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1

随机推荐

如何在 JavaScript 中实现“onVisible”事件？

是否有任何技术或一组技术可以用来实现实际上的onVisibleJavaScript 中的事件我希望我的 JavaScript 能够检测到当用户向下滚动页面时网页中的元素例如一段文本或图像何时在浏览器窗口中变得可见我也想要一个相应的
我无法安装 Docker，因为 containerd.io 没有安装候选

我尝试在 Kubuntu 19 10 上安装 Docker 我使用以下步骤进行安装 https docs docker com install linux docker ce ubuntu https docs docker com ins
当子div浮动时，父div失去自动高度

我有一个名为 main 的父 div 它里面有一堆子div 我向左或向右浮动当我完成最后一个浮动后主 div 的高度完全消失破坏了页面的布局我给它的高度 100 就目前而言但对于大多数分辨率来说它会过高如何将其保持在流体高度仅
使用opencv复制/混合不同尺寸的图像

我正在尝试混合两个图像如果它们具有相同的大小则很容易但如果其中一张图像较小或较大则 cv addWeighted 会失败图A 预计更大图B 预计较小我试图创建一个 ROI 尝试创建 A 大小的第三个图像并将 B 复制到里面我
spring data couchbase中的id是如何自动生成的？

我想在 spring data couchbase 中为我的文档创建 ID 自动生成 Spring 文档对此有步骤 https docs spring io spring data couchbase docs current refere
在 Laravel 查询生成器中进行投射

我想要castLaravel 查询生成器中的 orderBy 因为我的price is varchar type 所以当它排序时结果离我想要的很远我的脚本是这样的 DB table test gt where gt orderBy pr
如何在javascript中组合数组

您好我想根据数组中的唯一项合并数组我拥有的对象 totalCells 在这个totalCells数组中我有几个像这样的对象 totalCells cellwidth 15 552999999999999 lineNumber 1 cel
如何在选项卡关闭时删除 jquery cookie

我的 cookie 工作正常我没有提及日期因此当浏览器窗口关闭时 cookie 就会被删除但是当我关闭浏览器窗口中的选项卡时 cookie 不会被删除并且当我打开网站时会打开相同的保留的 cookie 状态页面当用户关闭浏览器选项
Java，循环结果集

在Java中我有一个这样的查询 String querystring1 SELECT rlink id COUNT FROM dbo Locate GROUP BY rlink id 表 rlink id 有以下数据 Sid lid 3
迭代WPF Datagrid中的所有单元格[重复]

这个问题在这里已经有答案了可能的重复 WPF DataGrid 如何在 DataGrid 中迭代以获取行和列 https stackoverflow com questions 1295023 wpf datagrid how do yo
Tailwind css，如何设置默认字体颜色？

我在我的项目中使用 tailwind css 由于我们的应用程序样式我们使用默认字体颜色但是我似乎找不到如何在 tailwind 中执行此操作文档 https tailwindcss com docs text color页面只讨论了
Prolog 是否有像 Common Lisp 一样的条件和重启系统？

Common Lisp 允许异常处理条件并重新启动 http www gigamonkeys com book beyond exception handling conditions and restarts html 粗略地说当函数抛
解析线性方程的系数

在java中我试图找到线性方程的系数以在我的计算器应用程序中找到线性方程的解例如 3x 2 6x 3 2 4x 我渴望得到的是 x 的系数和形式的常数ax b 0 在这个特定的例子中 coefficient 19 constant 8
将内存中的 HTML 保存到 S3 AWS Python Boto3

import boto3 from io import StringIO s3 boto3 client s3 display Altair Charting buff StringIO display save str obj html
如何启动 Matlab 分析器

我切换到 Matlab 2012b 从 2011a 但未能找到如何在新的 matlab gui 中启动分析器 gui GUI 选项仍然存在在编辑器选项卡中一旦函数崩溃您将能够指定输入参数
我们可以向 super() 传递什么参数？

我创建了一个Vehicle类并且还想有一个Car从它派生的类调用父构造函数来设置name and color 但是我收到这个错误 super takes at least 1 argument 0 given 这是我的代码 class Ve
Promise 构造函数的返回值

考虑下面两个例子 TEST 1 function test1 return new Promise function return 123 test1 then function data console log DATA data ret
如何取消合并单元格 EPPlus？

我正在尝试根据表列的数量取消合并并重新合并更短或更长的范围我使用了下面的代码但它似乎不起作用 tableSheet Cells C1 J1 Merge false 任何帮助将不胜感激您运行的是 EPP 4 0 1 吗如果是这样则这
一个属性可以访问另一个属性吗？

我刚刚接触Python 这是一个关于类的逻辑和实现的非常普遍的问题我对这个问题的基本水平表示歉意但希望它对其他人也有用这里有一些上下文可以使它更清楚 Context 我想创建一个代表图像的类该图像包括 3 个波段 R G B 与 3
从udf访问hdfs文件

我想通过 udf 调用访问文件这是我的脚本 files LOAD docs in USING PigStorage AS id stopwords id2 file buzz FOREACH files GENERATE pigbuzz

从udf访问hdfs文件

从udf访问hdfs文件 的相关文章

随机推荐

热门标签

从udf访问hdfs文件的相关文章