不同与分组哪个更好

2023-12-28

最简单的情况我们都参考：

select id from mytbl 
group by id

and

select distinct id from mytbl

正如我们所知，它们生成相同的查询计划，该计划在某些项目中反复提到，例如哪个更好：不同或分组依据 https://stackoverflow.com/questions/374973/which-is-better-distinct-or-group-by

然而在hive中，前者只有一个reduce任务，而后者有很多。

通过实验，我发现 GROUP BY 是10次以上比 DISTINCT 更快。

他们是不同的。

所以我学到的是：

GROUP-BY 无论如何并不比 DISTINCT 差，有时甚至更好。

我想知道：

1。如果这个结论是真的的话。

2。如果属实，我将认为 DISTINCT 是一种逻辑方便的方法，但为什么 DISTINCT 不采用 GROUP-BY 的更好实现呢？

3。如果是假的，我会非常渴望知道它在大数据情况下的正确用法。

非常感谢！！：）

你的经历很有趣。我还没有看到单个减速器的效果distinct versus group by。也许这两种结构之间的优化器存在一些细微的差异。

Hive 中一个“著名”的例子是：

select count(distinct id)
from mytbl;

versus

select count(*)
from (select distinct id
      from mytbl
     ) t;

前者仅使用一个减速器，后者并行运行。我在我的经验中看到了这一点，并且对其进行了记录和讨论（例如，在本文档的第 26 和 27 张幻灯片中）推介会 http://www.slideshare.net/oom65/optimize-hivequeriespptx). So, distinct绝对可以利用并行性。

我想随着 Hive 的成熟，这些问题将会得到解决。然而，讽刺的是 Postgres 也有类似的性能问题COUNT(DISTINCT)，尽管我认为根本原因有点不同。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

不同与分组哪个更好的相关文章

Pig 10.0 - 将元组分组并在 foreach 中合并包

我在用着Pig 10 0 我想在 foreach 中合并包假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组并将包与一组语义合并以获
如何在审计触发器中使用system_user但仍使用连接池？

我想做以下两件事在我的数据库表上使用审计触发器来识别哪个用户更新了什么使用连接池来提高性能对于 1 我在数据库触发器中使用 system user 来识别进行更改的用户但这阻止我执行需要通用连接字符串的 2 有没有一种方法可以让我充
SQL Server 2008 R2 内连接无法匹配 varchar 字段，因为它包含特殊字符

我们正在将 Microsoft SQL Server 2008 R2 用于我们的经典 ASP 应用程序之一我们有两张表 TableA TableB TableA有以下列 InstName varchar 1024 TableB有这些列 I
SQL Android 错误：没有这样的表

因此每次我在位于 AddContacts 类中的 EditText 字段中输入数据时我的对话框都会显示我已成功添加信息但在日志 cat 中却显示没有这样的表 contactsTable 我认为错误出在我的数据库类中的 onCreate
主键默认可以为NULL吗？为什么这样描述呢？

我有一张桌子当我describe这是 mysql gt DESC my table Field Type Null Key Default Extra contact id int 11 NO PRI NULL auto incremen
SQL Server 中全文搜索的奇怪行为

我的 MyTable 带有列消息 NVARCHAR MAX ID 为 1 的记录包含消息 0123456789333444 Test 当我运行以下查询时 DECLARE Keyword NVARCHAR 100 SET Keyword 01
什么是动态 SQL 查询？何时需要使用动态 SQL 查询？

什么是动态 SQL 查询何时需要使用动态 SQL 查询我正在使用 SQL Server 2005 这里有几篇文章动态SQL简介 http www sqlteam com article introduction to dynamic
MySQL，连接两列

MySQL 表中有两列 SUBJECT and YEAR 我想生成一个字母数字唯一编号其中包含主题和年份的串联数据我怎样才能做到这一点是否可以使用像这样的简单运算符您可以使用CONCAT http dev mysql com doc
PL/SQL 过程：如何返回 select 语句？

我想创建一个存储过程 on ORACLE数据库服务器我的问题是我不知道如何返回 select 语句这是程序中应包含的逻辑输入参数过滤器1 int 过滤器2 字符串 with cte as select val1 val2 stdde
获取从开始日期到结束日期的活跃周数

我的订阅数据如下所示数据显示用户何时购买订阅它有user id subscription id start date and end date 我已经得出wk start and wk end从中 user subscription i
在 SQL 中如何获得整数的最大值？

我试图从 MySQL 数据库中找出整数有符号或无符号的最大值有没有办法从数据库本身提取这些信息是否有我可以使用的内置常量或函数标准 SQL 或 MySQL 特定的 At http dev mysql com doc refman
内连接 3 个表

我正在使用 PHP 和 PDO 我需要重新收集连接 3 个表的信息 photos albums 相册照片该表具有以下结构 photos photo id int path varchar nick varchar date timesta
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
更高效的 LINQ 查询

有人可以帮我将此查询循环变成高效的 Linq 查询吗我将其加载到 TreeView 中因此必须附加每个项目包含也非常低效延迟加载项目也不起作用事实上这个查询访问数据库的次数比应有的要多 public IQueryable
从一张表更新并插入另一张表

我有两张桌子 table1 ID 代码姓名 table2 ID 代码姓名具有相同的列我想将数据从 table1 插入到 table2 或更新列如果 table2 中存在 table1 ID table2 ID 执行此操作的简单方法
PostgreSQL WHERE 计数条件

我在 PostgreSQL 中有以下查询 SELECT COUNT a log id AS overall count FROM Log as a License as b WHERE a license id 7 AND a licens
INTEGER 到 DATETIME 的转换与 VB6 不同

我正在查看一些遗留的 VB6 代码比我的时代早很多年它对 SQL 2005 数据库运行查询它提供了日期限制WHERE子句其中日期作为整数值给出CLng VB6 中的日期 e g WHERE SomeDateField gt 4006
如何在 Postgresql 中将 GIST 或 GIN 索引与 hstore 列一起使用？

我正在使用 postgresql 9 3 的 hstore 我正在尝试对 hstore 列使用索引就像文档所述 http www postgresql org docs 9 3 static hstore html 我的问题是索引似乎没有被
Postgres 按查询分组

我正在尝试在 postgres 的查询中使用 group by 我无法让它按照我想要的方式工作以便根据需要对结果进行分组这是另一个堆栈问题的扩展我刚刚回答过的递归查询 https stackoverflow com questions
总结同一个 SQL 表上的两个条件

给定一个 SQL 表 Transactions ID INT COMPANY ID INT STATUS INT where STATUS IN 0 1 表示免费交易并且STATUS IN 2 3 表示可计费交易简单的我希望 ANSI

随机推荐

Android PDF 查看器库 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我知道这个问题已经被问过很多次了但我仍然不清楚是否有一个现有的且正常工作的库可以本地显示 PDF 文
Pod 库未正确安装

我有一个带有 proj 结构的项目 XyzAbc LICENSE XyzAbc XyzAbc h Info plist file1 swift file2 swift Products XyzAbc framework 构建这个项目后我选择
wsgi 错误：地址已在使用中 - socketio/django/apache2

我的项目是使用 React create react app React router 无 webpack Django rest 和后端带有 eventlet 的 Socketio 创建的我在使用 apache2 进行部署时遇到了 3
注意：未定义的变量：第 2 行 C:\xampp\htdocs\hoc\get_session.php 中的 _SESSION

第一页第二页
面向对象的设计 - 咒语

我正在开发我的第一个 Java 项目这是一个基本的角色扮演游戏现在我正在研究咒语我需要一些 OOD 指导 I have Character 这是一个abstract class Character有一些subclasses like
UIWebView 无法加载 HTTPS 页面：错误域 = NSURLErrorDomain 代码 = -999 “操作无法完成。（NSURLErrorDomain 错误 -999。）”

注这个问题还没有答案 I use a UIWebView加载以下 URL https buchung salonmeister de ort 301655 menue offerId 907601 venueId 301655 https
为什么 Android 没有出现在 Eclipses 的首选项中？

我已经按照以下方式安装了 Android 开发者工具官方说明 http developer android com sdk index html 为什么选项卡没有出现在Windows gt Preferences as 他们说 http d
如何在Msbuild中设置SGEN工具路径以针对3.5框架

我刚刚将一个项目从 VS2008 升级到 VS2010 但我仍然以 3 5 框架为目标在我的项目文件中我有一个自定义任务来运行 SGEN 以生成 XmlSerializers dll 然而正在运行的 sgen 版本针对的是 4 0 框
尽管使用两级命名空间编译，但库仍需要平面命名空间中的符号

我动态加载Pythondlopen and RTLD LOCAL以避免与另一个库发生冲突该库碰巧包含一些同名的符号执行我的MVCE上面在 macOS 上使用 Xcode 失败了因为它期望 PyBuffer Type在全局命名空间中 T
如何编写带有时区但没有时间部分的 ISO 8601 日期

An ISO 8601 日期时间 https en wikipedia org wiki ISO 8601 Combined date and time representations带有时区的格式如下 2018 09 07T05 28 4
“条件表达式只能是布尔值，不能是整数。”是什么意思？意思是？

条件表达式只能是布尔值不能是整数是什么意思意思是我不知道Java 我知道C 但不足以理解它的含义请帮忙在http www javacoffeebreak com articles thinkinginjava comparing
从通知启动意图时出现“从非活动上下文服务调用 startactivity”警告

I ve a service这开始了一个notification with startForeground 我希望通知在单击时启动活动 The acitivty我想启动定义为android launchMode singleTask 通常在
Python 无法使用 surrogateescape 进行编码

我在 Python 3 4 中遇到 Unicode 代理编码问题 gt gt gt b xCC decode utf 16 be surrogateescape encode utf 16 be surrogateescape Traceb
在 Zend Autoloader 中找不到 PHPExcel 类

我在 Zend Framework 中的命名空间上遇到了困难至少我认为这是一个命名空间问题我想将 PHPExcel 集成到我的 Zend 项目中相关文件结构如下 library ABCD PHPExcel Zend ZendX PHP
梯度检查到底是什么？

我是深度学习的初学者我想到了梯度检查的概念我只是想知道它是什么以及它如何帮助改进培训过程为什么我们需要梯度检查反向传播作为一种算法有很多细节并且实现起来可能有点棘手一个不幸的特性是有很多方法可以在后支撑中产生微妙的错误因
Ninject 到动作过滤器中

我创建了一个自定义操作过滤器并将其与 Ninject 的 BindFilter 方法绑定 public class ExtendModelAttribute FilterAttribute public class ExtendModel
如何在 Laravel 4 中的路由组上应用多个过滤器？

Goal 我想使用 Laravel 4 中的路由过滤器Route group and Route filter 描述我有两种类型的用户内部的经销商 For Internal 我有 2 组 admin regular For Distr
ASP.NET 应用程序转到 500.21 ...直到 IIS 重置 + 清除临时 ASP.NET 缓存

我们在 QA 实验室中看到了一种奇怪的模式我们有两个 ASP NET 应用程序每个应用程序都部署在同一个 Windows 2008 SP2 机器上我们的应用程序池在域帐户中运行并设置为永不回收两个应用程序使用相同的 1 个应用程序
Facebook 建议忽略 og:title 直到页面刷新

我有 Facebook 推荐按钮的典型 HTML5 实现 div div
不同与分组哪个更好

最简单的情况我们都参考 select id from mytbl group by id and select distinct id from mytbl 正如我们所知它们生成相同的查询计划该计划在某些项目中反复提到例如哪个更好不

不同与分组哪个更好

不同与分组哪个更好 的相关文章

随机推荐

热门标签

不同与分组哪个更好的相关文章