谷歌的Dremel是什么?它与 MapReduce 有什么不同?

2024-06-20

谷歌的 Dremel 是此处描述 http://research.google.com/pubs/pub36632.html。 Dremel 和 Mapreduce 有什么区别?


Dremel http://research.google.com/pubs/pub36632.html and 映射减少 https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html它们不具有直接可比性,而是互补的技术。

MapReduce 并不是专门为分析数据而设计的,而是一个软件框架,允许节点集合来解决大型数据集的分布式计算问题。

Dremel 是一种数据分析工具,旨在对海量结构化数据集(例如日志或事件文件)快速运行查询。它支持类似 SQL 的语法,但除了表附加之外,它是只读的。它不支持更新或创建函数,也不具有表索引。数据以“列”格式组织,这有助于非常快的查询速度。 Google 的 BigQuery 产品是 Dremel 的实现,可通过 RESTful API 访问。

Hadoop(MapReduce 的开源实现)与“Hive”数据仓库软件相结合,还允许使用 SQL 样式语法对海量数据集进行数据分析。 Hive 本质上将查询转换为 MapReduce 函数。与使用 ColumIO 格式相比,Hive 尝试通过使用表索引等技术来加快查询速度。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

谷歌的Dremel是什么?它与 MapReduce 有什么不同? 的相关文章

  • Mongodb 聚合数组中的子文档

    我正在使用 mongodb 作为后端实现一个小型应用程序 在此应用程序中 我有一个数据结构 其中文档将包含一个包含子文档数组的字段 我使用以下用例作为基础 http docs mongodb org manual use cases inv
  • 如何使用 log4j 自定义附加程序在 HDFS 上创建日志?

    Overview 我们希望使用 log4j 记录 Spark 作业活动 并将日志文件写入 HDFS Java 8 Spark 2 4 6 Scala 2 1 2 Hadoop 3 2 1 我们无法找到本地 apache log4j 附加程序
  • 通过 Java 连接 Apache Drill

    在 Apache Drill 的 Wiki 中 我只能看到通过 SqlLine 客户端运行的查询 除了 REST API 之外 是否有任何编程方式可以在 Drill 中运行查询 有任何示例或指示吗 或者它与使用 JDBC 驱动程序运行 SQ
  • 如何从spark中的hbase表中获取所有数据

    我在 hbase 中有一个大表 名称为 UserAction 它具有三个列族 歌曲 专辑 歌手 我需要从 歌曲 列族中获取所有数据作为 JavaRDD 对象 我尝试了这段代码 但效率不高 有更好的解决方案来做到这一点吗 static Spa
  • 谷歌的Dremel是什么?它与 MapReduce 有什么不同?

    谷歌的 Dremel 是此处描述 http research google com pubs pub36632 html Dremel 和 Mapreduce 有什么区别 Dremel http research google com pu
  • 关于 Hadoop 和压缩输入文件的非常基本的问题

    我已经开始研究 Hadoop 如果我的理解是正确的 我可以处理一个非常大的文件 它会被分割到不同的节点上 但是如果文件被压缩 那么文件就无法分割 并且需要由单个节点处理 有效地破坏了运行一个mapreduce 一个并行机器集群 我的问题是
  • BigQuery 中的字段可以具有 NULLABLE 和 REPEATED 模式吗?

    BigQuery 中的字段可以为 NULLABLEand重复模式 例如 表示一个字符串数组 其中某些字符串可能为 NULL BigQuery 中的字段可以具有 NULLABLE 和 REPEATED 模式吗 没有 要么是一个 要么是另一个
  • 像袋子一样压平元组

    我的数据集如下所示 A 1 2 B 2 9 我想 展平 Pig 中的元组 基本上为内部元组中找到的每个值重复每个记录 这样预期的输出是 A 1 A 2 B 2 B 9 我知道当元组 1 2 和 2 9 是袋时这是可能的 你的洞察力很好 可以
  • S3并行读写性能?

    考虑 Spark 或任何其他 Hadoop 框架 从 S3 读取大型 例如 1 TB 文件的场景 多个spark执行器如何从S3并行读取非常大的文件 在 HDFS 中 这个非常大的文件将分布在多个节点上 每个节点都有一个数据块 在对象存储中
  • “客户端”对于 Hadoop/HDFS 究竟意味着什么?

    我理解其背后的一般概念 但我希望对 客户 是什么有更多的澄清和明确的定义 例如 如果我只是在终端上写一个 hdfs 命令 它仍然是 客户端 吗 ClientHadoop中是指用于与Hadoop文件系统通信的接口 Hadoop 可使用不同类型
  • 找不到 hadoop 安装:必须设置 $HADOOP_HOME 或 hadoop 必须位于路径中

    所以有一点背景 我一直在尝试在 CentOS 6 机器上设置 Hive 我按照 YouTube 视频的说明进行操作 http www youtube com watch v L2lSrHsRpOI http www youtube com
  • Bigquery 支持触发器吗?

    我们目前使用 AWS RDS 作为我们的数据库 在表中 我们定义了一些表上的插入或更新触发器 我想知道Bigquery是否也支持触发器 thanks BigQuery是一个数据仓库产品 类似于AWS Redshift和AWS Athena
  • 字符串到日期时间转换 Bigquery

    我有一个源表 其中的日期以字符串格式存储 如下所示 1984 10 28 00 00 00 1988 11 22 00 00 00 1990 01 08 00 00 00 1983 06 22 00 00 00 然后创建一个表test1如下
  • 如何在 HBase 中预分割表

    我将数据存储在具有 5 个区域服务器的 HBase 中 我使用 url 的 md5 哈希作为我的行键 目前 所有数据仅存储在一台区域服务器中 所以我想预先分割区域 以便数据在所有区域服务器上统一传输 我希望通过行键的第一个字符将表分成五个区
  • Spark Driver 内存和 Application Master 内存

    我是否正确理解客户端模式的文档 客户端模式与驱动程序在应用程序主机中运行的集群模式相反 在客户端模式下 驱动程序和应用程序主机是单独的进程 因此spark driver memory spark yarn am memory一定小于机器内存
  • Hive 中的 CASE 语句

    好的 我有以下代码来用二进制标志标记表中具有最高 Month cd 的记录 Select t1 month cd t2 max month cd CASE WHEN t2 max month cd null then 0 else 1 en
  • HBase中删除多行的有效方法

    有没有一种有效的方法可以删除 HBase 中的多行 或者我的用例是否不适合 HBase 有一个表称为 图表 其中包含图表中的项目 行键的格式如下 chart date reversed ranked attribute value reve
  • 数据持久层需要多少个抽象级别?

    我正在使用 DDD 技术编写一个应用程序 这是我第一次尝试 DDD 项目 这也是我的第一个绿地项目 我是唯一的开发商 我已经充实了域模型和用户界面 现在我从持久层开始 像往常一样 我从单元测试开始 Test public void Shou
  • 从猪的单行输入生成多行输出

    我的要求是通过在 Pig 脚本中使用单行输入来生成多行输出 可能的解决方案有哪些 这个想法是将你的输入线转换成一个袋子 然后将其压平 这里可能有两种情况 阅读文字 txt load pig fun input text txt using
  • 从 Google BigQuery 查询不同列中的键值

    我使用 Firebase Analytics 收集分析数据 并将其链接到 Google BigQuery 我在 BigQuery 中有以下数据 不必要的列 行被省略 数据集看起来类似于https bigquery cloud google

随机推荐