谷歌的Dremel是什么？它与 MapReduce 有什么不同？

2024-06-20

谷歌的 Dremel 是此处描述 http://research.google.com/pubs/pub36632.html。 Dremel 和 Mapreduce 有什么区别？

Dremel http://research.google.com/pubs/pub36632.html and 映射减少 https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html它们不具有直接可比性，而是互补的技术。

MapReduce 并不是专门为分析数据而设计的，而是一个软件框架，允许节点集合来解决大型数据集的分布式计算问题。

Dremel 是一种数据分析工具，旨在对海量结构化数据集（例如日志或事件文件）快速运行查询。它支持类似 SQL 的语法，但除了表附加之外，它是只读的。它不支持更新或创建函数，也不具有表索引。数据以“列”格式组织，这有助于非常快的查询速度。 Google 的 BigQuery 产品是 Dremel 的实现，可通过 RESTful API 访问。

Hadoop（MapReduce 的开源实现）与“Hive”数据仓库软件相结合，还允许使用 SQL 样式语法对海量数据集进行数据分析。 Hive 本质上将查询转换为 MapReduce 函数。与使用 ColumIO 格式相比，Hive 尝试通过使用表索引等技术来加快查询速度。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

谷歌的Dremel是什么？它与 MapReduce 有什么不同？的相关文章

Mongodb 聚合数组中的子文档

我正在使用 mongodb 作为后端实现一个小型应用程序在此应用程序中我有一个数据结构其中文档将包含一个包含子文档数组的字段我使用以下用例作为基础 http docs mongodb org manual use cases inv
如何使用 log4j 自定义附加程序在 HDFS 上创建日志？

Overview 我们希望使用 log4j 记录 Spark 作业活动并将日志文件写入 HDFS Java 8 Spark 2 4 6 Scala 2 1 2 Hadoop 3 2 1 我们无法找到本地 apache log4j 附加程序
通过 Java 连接 Apache Drill

在 Apache Drill 的 Wiki 中我只能看到通过 SqlLine 客户端运行的查询除了 REST API 之外是否有任何编程方式可以在 Drill 中运行查询有任何示例或指示吗或者它与使用 JDBC 驱动程序运行 SQ
如何从spark中的hbase表中获取所有数据

我在 hbase 中有一个大表名称为 UserAction 它具有三个列族歌曲专辑歌手我需要从歌曲列族中获取所有数据作为 JavaRDD 对象我尝试了这段代码但效率不高有更好的解决方案来做到这一点吗 static Spa
谷歌的Dremel是什么？它与 MapReduce 有什么不同？

谷歌的 Dremel 是此处描述 http research google com pubs pub36632 html Dremel 和 Mapreduce 有什么区别 Dremel http research google com pu
关于 Hadoop 和压缩输入文件的非常基本的问题

我已经开始研究 Hadoop 如果我的理解是正确的我可以处理一个非常大的文件它会被分割到不同的节点上但是如果文件被压缩那么文件就无法分割并且需要由单个节点处理有效地破坏了运行一个mapreduce 一个并行机器集群我的问题是
BigQuery 中的字段可以具有 NULLABLE 和 REPEATED 模式吗？

BigQuery 中的字段可以为 NULLABLEand重复模式例如表示一个字符串数组其中某些字符串可能为 NULL BigQuery 中的字段可以具有 NULLABLE 和 REPEATED 模式吗没有要么是一个要么是另一个
像袋子一样压平元组

我的数据集如下所示 A 1 2 B 2 9 我想展平 Pig 中的元组基本上为内部元组中找到的每个值重复每个记录这样预期的输出是 A 1 A 2 B 2 B 9 我知道当元组 1 2 和 2 9 是袋时这是可能的你的洞察力很好可以
S3并行读写性能？

考虑 Spark 或任何其他 Hadoop 框架从 S3 读取大型例如 1 TB 文件的场景多个spark执行器如何从S3并行读取非常大的文件在 HDFS 中这个非常大的文件将分布在多个节点上每个节点都有一个数据块在对象存储中
“客户端”对于 Hadoop/HDFS 究竟意味着什么？

我理解其背后的一般概念但我希望对客户是什么有更多的澄清和明确的定义例如如果我只是在终端上写一个 hdfs 命令它仍然是客户端吗 ClientHadoop中是指用于与Hadoop文件系统通信的接口 Hadoop 可使用不同类型
找不到 hadoop 安装：必须设置 $HADOOP_HOME 或 hadoop 必须位于路径中

所以有一点背景我一直在尝试在 CentOS 6 机器上设置 Hive 我按照 YouTube 视频的说明进行操作 http www youtube com watch v L2lSrHsRpOI http www youtube com
Bigquery 支持触发器吗？

我们目前使用 AWS RDS 作为我们的数据库在表中我们定义了一些表上的插入或更新触发器我想知道Bigquery是否也支持触发器 thanks BigQuery是一个数据仓库产品类似于AWS Redshift和AWS Athena
字符串到日期时间转换 Bigquery

我有一个源表其中的日期以字符串格式存储如下所示 1984 10 28 00 00 00 1988 11 22 00 00 00 1990 01 08 00 00 00 1983 06 22 00 00 00 然后创建一个表test1如下
如何在 HBase 中预分割表

我将数据存储在具有 5 个区域服务器的 HBase 中我使用 url 的 md5 哈希作为我的行键目前所有数据仅存储在一台区域服务器中所以我想预先分割区域以便数据在所有区域服务器上统一传输我希望通过行键的第一个字符将表分成五个区
Spark Driver 内存和 Application Master 内存

我是否正确理解客户端模式的文档客户端模式与驱动程序在应用程序主机中运行的集群模式相反在客户端模式下驱动程序和应用程序主机是单独的进程因此spark driver memory spark yarn am memory一定小于机器内存
Hive 中的 CASE 语句

好的我有以下代码来用二进制标志标记表中具有最高 Month cd 的记录 Select t1 month cd t2 max month cd CASE WHEN t2 max month cd null then 0 else 1 en
HBase中删除多行的有效方法

有没有一种有效的方法可以删除 HBase 中的多行或者我的用例是否不适合 HBase 有一个表称为图表其中包含图表中的项目行键的格式如下 chart date reversed ranked attribute value reve
数据持久层需要多少个抽象级别？

我正在使用 DDD 技术编写一个应用程序这是我第一次尝试 DDD 项目这也是我的第一个绿地项目我是唯一的开发商我已经充实了域模型和用户界面现在我从持久层开始像往常一样我从单元测试开始 Test public void Shou
从猪的单行输入生成多行输出

我的要求是通过在 Pig 脚本中使用单行输入来生成多行输出可能的解决方案有哪些这个想法是将你的输入线转换成一个袋子然后将其压平这里可能有两种情况阅读文字 txt load pig fun input text txt using
从 Google BigQuery 查询不同列中的键值

我使用 Firebase Analytics 收集分析数据并将其链接到 Google BigQuery 我在 BigQuery 中有以下数据不必要的列行被省略数据集看起来类似于https bigquery cloud google

随机推荐

不和谐机器人 |不和谐.js |类型错误：无法读取未定义的属性“长度”

我正在制作一个 Discord 机器人并且正在使用 CodeLyon 的视频作为参考该错误位于我的 message js 文件中该文件包含以下内容 require dotenv config create cooldowns map
学说迁移后备

我们正在使用原则迁移当迁移包含多个操作并且其中一个操作失败时通常会出现问题例如如果迁移添加了 5 个外键其中第 5 个失败而字段长度不同则修复字段错误并重新生成迁移不会not修复整个问题而现在出现一个与 4 个密钥已存在有关
如何在对话框角度材料内部对齐按钮？

我想要下面对话框右上角的对齐按钮是我的 html div p What s your favorite animal p div
如何在 iPhone 上使用带有线程的 sqlite + fdbm 库

相关这个问题 https stackoverflow com questions 1082554 我想把数据加载放在后台但是我收到库例程调用不按顺序错误 In 这个所以线程 https stackoverflow com quest
在 Python 中解析 TCL 列表

我需要在双括号上拆分以空格分隔的 TCL 列表例如 OUTPUT 172 25 50 10 01 01 Ethernet 172 25 50 10 01 02 Ethernet Traffic Item 1 172 25 50 10 01
如何计算 pandas datetime 对象的均值和方差？

如何计算 YYYY MM DD 形式的 python 日期时间对象的汇总统计数据均值和标准差我想对具有不同 ID 的不同日期时间对象组执行此操作数据如下 import datetime as dt df pd DataFrame Da
Hibernate 挂起或引发延迟初始化，没有会话或会话已关闭

我正在增强旧的 Spring Hibernate 应用程序但我陷入困境我有一种方法可以读取 3000 多行长的文件每行都有一条记录必须与数据库中的某些内容进行比较然后必须将寄存器添加到数据库多对多表表和关系是 Branch h
如何从asp net core中的AuthorizationFilter重定向到登录页面？

当我回来时ForbidResult 它重定向到AccessDenied启动时指定的页面我想做同样的事情UnauthorizedResult 但重定向到Login page P S 我没有使用标准Authorize控制器中的属性我有自己的
Rails 4 可安装引擎，找不到文件“jquery”

我正在创建一个 Rails 可安装引擎插件它使用 gem jquery rails 我在 gemspec 文件中添加了这段代码 s add dependency jquery rails gt 3 0 1 and run bundle i
动态选择端口号？

在 Java 中我需要获取端口号以在同一程序的多个实例之间进行通信现在我可以简单地选择一些固定的数字并使用它但我想知道是否有一种方法可以动态选择端口号这样我就不必打扰我的用户设置端口号这是我的一个想法其工作原理如下有一个固定
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
从远程主机自动下载 X509 证书链

我正在构建一些 net 代码这些代码将在我们的一台服务器上按计划无人值守地运行其执行的一部分要求它执行一个 Java 可执行文件该可执行文件通过 SSL 与某些 Web 资源和服务进行通信如果 Java 通过 SSL 执行某些操作并
如何使用assertEquals 和 Epsilon 在 JUnit 中断言两个双精度数？

不推荐使用双打的assertEquals 我发现应该使用带有Epsilon的形式这是因为双打不可能100 严格但无论如何我需要比较两个双打预期结果和实际结果但我不知道该怎么做目前我的测试如下 Test public void te
我想以 Order(1) 或 (nlogn) 的顺序生成序列 1,3,8,22,60 ,164 的第 n 项

该序列满足 a n 2 2 a n 1 2 a n 并且 a n 1 sqrt 3 n 2 1 sqrt 3 n 2 4sqrt 3 我正在使用 C n 可以从 1 到 10 9 变化我需要模 10 9 7 的答案但速度在这里非常重要
为什么 JavaScript base-36 转换看起来不明确

我目前正在编写一段使用 Base 36 编码的 JavaScript 我遇到了这个问题 parseInt welcomeback 36 toString 36 看来要回归了 welcomebacg 我在 Chrome 开发者控制台和 Nod
使用未解析的标识符“FlurryAdInterstitial”

我正在尝试整合Flurry Interstitial Ads使用cocoapods in Swift and Xcode 7 1 1 我正在关注开发人员雅虎网站上的此文档 https developer yahoo com flurry d
angularjs:timeout 在 $http POST 请求中不起作用

我的代码中有以下代码片段它为请求设置了以毫秒为单位的超时但即使满足超时它也不会取消 var httpURL method URLobj method url urlString data data withCredentials tr
rxjs/Subject.d.ts 错误：类“Subject”错误地扩展了基类“Observable”

我从中提取了示例模板代码本教程 https github com gopinav Angular 2 Tutorials并执行以下两个步骤来开始 npm install worked fine and created node module
org.apache.hadoop.security.AccessControlException：客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS] 问题

我正在使用 java 客户端通过 Kerberos 身份验证安全访问 HDFS 我尝试打字klist在服务器上它显示已经存在的有效票证我收到的异常是客户端无法通过以下方式进行身份验证 TOKEN KERBEROS 帮助将不胜感激这是一
谷歌的Dremel是什么？它与 MapReduce 有什么不同？

谷歌的 Dremel 是此处描述 http research google com pubs pub36632 html Dremel 和 Mapreduce 有什么区别 Dremel http research google com pu

谷歌的Dremel是什么？它与 MapReduce 有什么不同？

谷歌的Dremel是什么？它与 MapReduce 有什么不同？ 的相关文章

随机推荐

热门标签

谷歌的Dremel是什么？它与 MapReduce 有什么不同？的相关文章