Pig 和 Hive 之间的区别？为什么两者都有？ [关闭]

2024-02-04

我的背景 - 进入 Hadoop 世界已经 4 周了。使用 Cloudera 的 Hadoop VM 涉足 Hive、Pig 和 Hadoop。读过Google关于Map-Reduce和GFS的论文（PDF link http://static.googleusercontent.com/media/research.google.com/en//archive/mapreduce-osdi04.pdf).

我明白那个-

猪的语言 Pig Latin 是一种转变 from(适合程序员的思维方式) 类似于 SQL 的声明式风格编程与 Hive 的查询语言紧密结合类似于 SQL。
Pig 位于 Hadoop 之上并位于原则也可以坐在上面树妖。我可能是错的，但 Hive 是与 Hadoop 紧密耦合。
Pig Latin 和 Hive 命令编译为Map 和Reduce 作业。

我的问题 - 当一个（比如猪）可以达到目的时，同时拥有两者的目标是什么？难道只是因为 Pig 受到了 Yahoo! 的福音吗？和 Facebook 的 Hive？

看看这个post http://yahoohadoop.tumblr.com/post/98294444546/comparing-pig-latin-and-sql-for-constructing-data来自 Yahoo! 的 Pig 架构师 Alan Gates 的文章比较了何时使用 Hive 等 SQL 而不是 Pig。他提供了一个非常令人信服的案例来说明 Pig 等过程语言（相对于声明式 SQL）的有用性及其对数据流设计者的实用性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pig 和 Hive 之间的区别？为什么两者都有？ [关闭] 的相关文章

如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat？

我想编写多个输出文件如何使用 Job 而不是 JobConf 来执行此操作创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
Spark超时可能是由于HDFS中文件超过100万个的binary Files()

我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好但在纱线上失败并显示 client token N A diagnostics Application app
Hive ParseException - 无法识别“结束”“字符串”附近的输入

尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
Spark JDBC 仅返回带有列名的数据帧

我正在尝试使用 Spark JDBC 连接到 HiveTable 代码如下 val df spark read format jdbc option driver org apache hive jdbc HiveDriver option
如果 HBase 不是运行在分布式环境中，它还有意义吗？

我正在构建数据索引这将需要以形式存储大量三元组 document term weight 我将存储多达几百万个这样的行目前我正在 MySQL 中将其作为一个简单的表来执行我将文档和术语标识符存储为字符串值而不是其他表的外键我正在重
在 Hadoop 中处理带标头的文件

我想在 Hadoop 中处理很多文件每个文件都有一些头信息后面跟着很多记录每个记录都存储在固定数量的字节中对此有何建议我认为最好的解决方案是编写一个自定义的InputFormat http hadoop apache org co
使用 python 从 hive 读取数据时的性能问题

我在 hive 中有一个表其中包含 351 837 110 MB 大小记录我正在使用 python 读取该表并写入 sql server 在此过程中从 hive 读取数据到 pandas dataframe 需要很长时间当我加载整
Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
通过 hive 访问 maxmind 的 GeoIP-country.mmdb 数据库时出现异常

我有一个自定义 Hive UDF 来访问 MaxmindGeoIP 国家 mmdb通过 add file pqr mmdb 添加到 Hive 资源的数据库编译好的 UDF 添加为 add jar abc jar 当我运行 hive 查询时
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

我想转换String反对IntWritableHadoop 中的对象任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别

随机推荐

Spring webflux block、flatmap 和 subscribe 的区别

我有一个api需要调用其他3个api 第二个和第三个api调用依赖于第一个api的结果我对执行此操作的最佳方法以及使用块订阅和平面地图之间的区别有点困惑所有这 3 种方法都适合我但我不确定哪一种是最好的这就是我目前所拥有的 web
如何从 CLI 调用 gnuplot 并将输出图形保存到图像文件？

我正在编写一个批处理文件该文件还将从 dat 文件生成 gnuplot 图我希望使用我编写的 gnuplot gnu 脚本从命令行调用 gnuplot 并将输出图形保存到图像中就像是 gnuplot exe script gnu gt
有人知道 eclipse 的共享待办事项列表插件吗

有谁知道 Eclipse 的共享 TODO 列表插件允许开发团队中的所有用户查看和编辑相同的任务列表 Mylyn http www eclipse org mylyn 可用于将问题跟踪系统集成到 IDE 中它通过使任务成为 Eclipse
使用 Macro_rules 中的可选数据表示枚举变体

我正在尝试创建一个宏来帮助处理我一直在重复编写的一些样板枚举代码我设法使用基本的方法相对轻松地实现了一个简单的枚举即没有参数 macro rule 例如摘录 macro rules enum helper type ident name
是否可以恢复损坏的“interned”字节对象

众所周知小bytes 对象由 CPython 自动驻留类似于intern https docs python org 3 library sys html sys intern 字符串函数更正 As 解释了 https stacko
Project Reactor 中的预取是什么意思？

我正在使用 Project Reactor 并且正在使用Flux flatMapIterable https projectreactor io docs core release api reactor core publisher Fl
将 Webpack 与 HTTP/2 结合使用有什么价值

我正在开始一个新项目并且我正在尝试前瞻性地思考它我过去使用过 Browserify 对于我的新项目我想使用 Webpack Rollup 或 SystemJS Webpack 看起来是迄今为止最成熟的具有大量出色的功能不过我担心
从 C# 中的接口创建对象

仅给定一个接口是否可以从中创建一个对象就像是 var obj new IWidget 我知道这段代码是不正确的 VS 仍然无法创建 IWidget 的实例我所处的上下文中我的项目引用了接口并且我想创建具体对象并从方法返回它们但我
anaconda如何选择cudatoolkit

我有多个 anaconda 环境上面安装了不同的 cuda 工具包环境1有cudatoolkit 10 0 130 环境2有cudatoolkit 10 1 168 环境3有cudatoolkit 10 2 89 我通过运行找到了这些c
空样式 (.css/.scss) 文件

当我创建 Angular 应用程序时我使用 CLI 来生成组件在开发应用程序一段时间后我为每个组件都有样式文件但其中大部分是空的当我检查声纳时空样式文件中有代码气味删除这个空样式表在此文件末尾添加一个空的新行我应该删除声纳
重定向到用户登录后尝试访问的页面

一直在阅读一些内容来找到答案但运气不太好我有一个网站成员可以匿名浏览该网站但某些页面受到限制一旦成员单击需要登录才能查看的链接我就会将其重定向到登录页面我面临的问题是我不知道如何将会员重定向到他们登录后试图访问的页面他们试图
JavaScript 图像缩放与 CSS3 变换，如何计算原点？（举例）

我正在尝试实现图像缩放效果有点类似于 Google 地图的缩放效果但具有固定位置图像网格我已经在这里上传了到目前为止我所拥有的示例 http www dominicpettifer co uk Files MosaicZoom htm
向 bison/jison 计算器语言添加函数

我正在尝试扩展吉森计算器示例 http zaach github io jison try 具有一些简单的功能我对解析和 bison jison 相当陌生但这是我到目前为止所拥有的一些内容 lexical grammar lex var
History.js 有没有办法知道何时按下后退按钮

我已经开始测试历史 js https github com balupton history js 在了解了它的工作原理并且没有popstate 而是有statechange 我正在寻找一种在按下浏览器后退按钮时有所不同的方法原因是我需要
Linux 上的 Squeak SMTP

我正在使用 Squeak 5 类 SecureSMTPClient 通过 SSL TLS 发送电子邮件它在我的 Windows 机器上运行良好感谢答案那个问题 https stackoverflow com questions 3761
使用可变长度数组有任何开销吗？

使用可变长度数组有一些开销吗数组的大小可以在运行时通过命令行参数传递吗与自动和动态分配数组相比为什么要引入它 VLA 确实有一些开销与普通命名的编译时大小的数组相比首先它具有运行时长度而且该语言为您提供了在运行时获取数组实
从返回响应数据的 Fetch Post 获取数据

我在带有 redux 的 React 应用程序中使用交叉获取在我的减速器中我使用 cross fetch 的 post 方法将一些数据保存到数据库中我的调用返回一个响应其中包含一些我需要在保存后分配给状态的数据但我在解析数据时遇到
当我直到运行时才知道长度时，如何声明数组？

我最初有一个数组 1 1000 它被定义为全局变量但现在我需要它是 n 而不是 1000 直到后来我才找到 n 在填充数组之前我知道 n 是什么但我需要它是全局的因此需要一种在运行时定义全局数组的大小的方法上下文是通过文件中字节的线
电话号码中的正则表达式可选空格[重复]

这个问题在这里已经有答案了可能的重复用于电话号码验证的综合正则表达式 https stackoverflow com questions 123559 a comprehensive regex for phone number val
Pig 和 Hive 之间的区别？为什么两者都有？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我的背景进入 Hadoop 世界已经 4 周了使用 Cloudera 的 Hadoop VM 涉足 Hive Pig 和 Hadoop 读过

Pig 和 Hive 之间的区别？为什么两者都有？ [关闭]

Pig 和 Hive 之间的区别？为什么两者都有？ [关闭] 的相关文章

随机推荐

热门标签