pyspark的approx_count_distinct中rsd的解释是什么以及更改它的后果是什么？

2024-07-03

在 pyspark 的近似计数不同 https://spark.apache.org/docs/3.1.2/api/python/reference/api/pyspark.sql.functions.approx_count_distinct.html函数有一个精度参数rsd。它是如何工作的？如果增加或减少，会有什么权衡？我想对于这个应该明白如何approx_count_distinct已实施。你能帮我理解吗rsd在逻辑背景下approx_count_distinct?

rsd是“相对标准差”的缩写，默认值为0.05。使用此值，您可以控制在不同计数上您愿意接受的错误是什么。正如 @Derek O 在上面的评论中所描述的，approx_count_distinct函数在准确性之间进行权衡（您可以使用rsd参数）和计算速度。

为了更多地了解底层算法，我们可以快速浏览一下该算法的实现approx_count_distinct https://github.com/apache/spark/blob/fbbcf9434ac070dd4ced4fb9efe32899c6db12a9/sql/core/src/main/scala/org/apache/spark/sql/functions.scala#L286-L296功能。我们看到它使用了 HyperLogLogPlusPlus 算法（对超级日志日志 https://en.wikipedia.org/wiki/HyperLogLog算法）。

  /**
   * Aggregate function: returns the approximate number of distinct items in a group.
   *
   * @param rsd maximum relative standard deviation allowed (default = 0.05)
   *
   * @group agg_funcs
   * @since 2.1.0
   */
  def approx_count_distinct(e: Column, rsd: Double): Column = withAggregateFunction {
    HyperLogLogPlusPlus(e.expr, rsd, 0, 0)
  }

阿帕奇火花的执行 https://github.com/apache/spark/blob/fbbcf9434ac070dd4ced4fb9efe32899c6db12a9/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/aggregate/HyperLogLogPlusPlus.scala#L28-L42这个的HyperLogLogPlusPlus算法基于以下论文（Spark v3.3.1，撰写本文时）：

HyperLogLog：近最优基数估计算法的分析 http://algo.inria.fr/flajolet/Publications/FlFuGaMe07.pdf（此链接已损坏，但为了完整性我将其添加）
HyperLogLog 实践：最先进的基数估计算法的算法工程 http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/pubs/archive/40671.pdf
HyperLogLog 实践附录：最先进基数估计算法的算法工程 https://docs.google.com/document/d/1gyjfMHy43U9OWBXxfaeG-3MjGzejW1dlpyMwEYAAWEI/view?fullscreen#

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pyspark的approx_count_distinct中rsd的解释是什么以及更改它的后果是什么？的相关文章

使用 MySQL 变量选择分层数据

我有一个表用于存储目录信息就像在文件系统中一样每个目录命名节点都有一个nodeid and a parentid 我想尽可能有效地检索完整路径为此我试图使以下查询起作用但这些查询仅返回第一个预期行实际上是最内部的目录任何
如何使用 Apache Spark 读取/写入协议缓冲区消息？

我想使用 Apache Spark 从 HDFS 读取协议缓冲区消息向 HDFS 写入协议缓冲区消息我发现了这些建议的方法 1 使用Google的Gson库将protobuf消息转换为Json 然后通过Spark Sql读取写入它们
Postgres / Rails Active Record -- 查询舍入浮点值

我在 Rails 应用程序中使用 Postgres 将纬度经度作为浮点值存储在数据库中我希望能够比较位置的纬度经度但我只知道如何做到完全相等 Location where lat lat lon lon 我的问题是我希望 Post
C# 使用 SqlCommand.Parameters 更新表

我正在尝试使用 Sql 命令更新 SQL 表我认为这是我的 T SQL 的语法错误但这是我到目前为止所得到的 SqlCommand sqlCmd new SqlCommand UPDATE yak tickets SET email e
将具有外键的第三个表中的记录复制到其他表

我有三个表表 1 作为主表表 2 作为表 1 的详细信息表 3 作为表 2 的详细信息 TABLE1 PK1 INTEGER FD1 VARCHAR 100 TABLE2 PK2 INTEGER FK1 INTEGER FD2 VAR
如何插入只有一个 IDENTITY 列的表？

在尝试回答的过程中提出了这个问题另一个 https stackoverflow com questions 850017 how to manage groups in the database 850049 850049 考虑下面的 MS
在 redshift 上查询数据时出错 - 获取条带数据时出错

我正在尝试在 redshift 中的外部表上运行以下查询 select from schema table limit 10 我收到一个错误 2018 06 20 12 03 14 XX000 500310 Amazon 无效操作 S3 查
更改 SQL Server 中的列

什么是正确的语法ALTER语句向现有列添加默认值我可以毫无错误地添加新列 ALTER TABLE tb TableName ADD Record Status varchar 20 但是如果我尝试使用以下语句更改现有列以应用默认值 ALT
除了结构化 XML 数据之外，还选择行数据

我知道如何将 XML 变量连接到其他表但在本例中我尝试从表中选择每一行以及 XML 的结构从每个相应的表行在那一行旁边我无法在网上找到任何示例来帮助解决此问题因为大多数示例都处理单个 XML 值抱歉如果有的话我无法在无数其他
数据库异常 - 一般错误：1021 磁盘已满

谁能帮我理解为什么这个查询说光盘已满数据库异常 SQLSTATE HY000 一般错误 1021 磁盘已满 tmp sql 1445 3 MAI 等待有人释放一些空间错误号 28 设备上没有剩余空间 Query 这是服务器问题只有楼主
带/不带“ORDER BY”的 CosmosDB sql 查询返回不同数量的项目

我正在从我的 Web 服务查询 cosmosdb sql 数据库只需调用 Microsoft Azure Documents Client Version 1 18 0 0 DocumentClient CreateDocumentQue
使用sql删除重复行

我正在尝试从 mysql 表中删除重复的行我尝试了多个查询但不断收到此错误 1093 You can t指定目标表 usa city 以在 FROM 子句中进行更新该表如下所示 usa city id pk id state city
SQL Loader 脚本帮助添加 SYSDATE、USER

我正在尝试从文件加载数据并且想将 CREATED DATE 和 UPDATED DATE 设置为 SYSDATE 将 CREATE BY 和 UPDATED BY 设置为 USER 这是我正在使用的表 CREATE TABLE CATAL
通过 SQL 查询安全地标准化数据

假设我有一张客户表 CREATE TABLE customers customer number INTEGER customer name VARCHAR customer address VARCHAR 这张表确实not有一个主键然而
如何清除实体框架中的待定更改

我有一些表数据DbContext我不想保存我已经删除了数据库重新设置了它但是挂起的更改不会消失DbContext 重建数据库后我的数据库表为空但是当我将实体作为对象列表调用时它仍然包含旧对象关于如何清除旧的待处理数据有什么建议
使用两列的 T-SQL“不在其中”

我想从表 T1 中选择所有记录其中 A 列和 B 列中的值与表 T2 中的 C 列和 D 列没有匹配的元组 In mysql Where not in 使用两列 https stackoverflow com questions 8435
Django QuerySet 中计算列的总和

鉴于以下情况Contribution model class Contribution models Model start time models DateTimeField end time models DateTimeField n
PostgreSQL 使用“lag()”窗口函数更新查询

我有一个涉及Postgresql数据库的任务我对 SQL 不太有经验我有一张贸易产品每周营业额的表格每周提供以下信息产品周数周营业额可能是正值或负值具体取决于天气更多产品被购买或出售我添加了一栏其中包含每周的期末余额
获取每个人每天的最短日期时间的记录

CREATE TABLE IF NOT EXISTS accesscards id int 11 NOT NULL AUTO INCREMENT department varchar 255 NOT NULL name varchar 25
SQL 关键字使用大写有充分的理由吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案默认值似乎是大写但是真的有理由使用大写关键字吗 I started using upper case because I was just t

随机推荐

React / Webpack - “模块解析失败：意外的令牌 - 您可能需要适当的加载器来处理此文件类型。”

我正在尝试使用 Webpack 构建一个简单的 React 应用程序但是在 Webpack 开发服务器运行时我收到以下错误 gt ERROR in client components home js Module parse failed
Vim Regex 重复行分组

我有一个这样的日志文件 12 adsflljl 12 hgfahld 12 ash al 13 a jfda 13 asldfj 15 aljdf 16 a dlfj 19 adads 19 adfasf 20 aaaadsf 我想将它们
我在 SQLAlchemy 中的关系出了什么问题？

我将 SQLAlchemy 与 Flask 结合使用来为我的应用程序创建关系我最近重写了这些关系并且无论我如何更改我都会不断收到错误 sqlalchemy exc NoForeignKeysError Could not determ
将 Visual Studio Code 集成到 Google Cloud

如何通过 Visual Studio Code 与 Google App Engine 实例上的代码进行交互您现在可以使用以下命令从 Google Cloud Shell 运行 Visual Studio Codehttps github
除了结构化 XML 数据之外，还选择行数据

我知道如何将 XML 变量连接到其他表但在本例中我尝试从表中选择每一行以及 XML 的结构从每个相应的表行在那一行旁边我无法在网上找到任何示例来帮助解决此问题因为大多数示例都处理单个 XML 值抱歉如果有的话我无法在无数其他
离屏导航 - 左右导航 - 仅 CSS

我正在尝试仅使用 css 创建左右离屏导航抽屉但在让每一侧正常工作时遇到问题我使用复选框作为我的按钮如下所示
NSURL URLWithString: 为 null，带有非英语重音字符

我有以下字符串 NSString googleSearchString http www google com search q lyrics 22T nder P Dig 22 22Jakob Sveistrup 22 请注意它有一些重
Bootstrap datepicker — 如何获取其他格式的 toDisplay 和其他格式的 toValue

很长一段时间以来我都遇到了麻烦toValue and toDisplay 我需要并出现在显示屏上以格式显示日期年月日和 u toValue 它与表单一起发送以便它位于年月日格式我尝试了各种方法但仍然不起作用我附上了插件官方页
我在 SQLAlchemy 中的关系出了什么问题？

我将 SQLAlchemy 与 Flask 结合使用来为我的应用程序创建关系我最近重写了这些关系并且无论我如何更改我都会不断收到错误 sqlalchemy exc NoForeignKeysError Could not determ
Android 列表视图，带有页眉和页脚按钮

伙计们我需要进行这样的布局我有列表视图我需要在其顶部和底部放置按钮即当用户将列表滚动到末尾时他可以看到底部按钮当用户位于顶部时列表中他可以看到顶部按钮但是当用户位于列表视图的中间时他看不到这些按钮我不知道该怎么做感
Backbone：原型对象的恼人行为

我知道这是 javascript 本身的问题或行为而不是 Backbone 的扩展方法但我想知道避免它的最佳策略是什么让我们更好地将其放入代码中 var MyModel Backbone Model extend value 0 v
Backbone：原型对象的恼人行为

我知道这是 javascript 本身的问题或行为而不是 Backbone 的扩展方法但我想知道避免它的最佳策略是什么让我们更好地将其放入代码中 var MyModel Backbone Model extend value 0 v
正在更改的线程参数

当启动多个线程时 id我正在解析的参数有时是错误的这是我的启动 for int i 0 i lt threadCount i Thread thread new Thread gt WorkerThread i thread Start
Eclipse 3.5（及更新版本）切换选项卡非常慢

我在 Macos 10 5 上使用 eclipse 3 5 cocoa build 和 Java 1 5 0 19 我只打开了 3 个 java 文件 1 个文件 2000 行另外 2 个大约 700 行但是当我从 1 个文件选项卡切
正在更改的线程参数

当启动多个线程时 id我正在解析的参数有时是错误的这是我的启动 for int i 0 i lt threadCount i Thread thread new Thread gt WorkerThread i thread Start
如何在单元测试中模拟 JPA 存储库的 save 方法

例如我在 UserService 中有这个方法 Override Transactional public UserDto create UserDto userDto User dbUser userRepository findOne
为什么向实例动态添加 __call__ 方法不起作用？

在 Python 2 和 Python 3 中代码 class Foo object pass f Foo f call lambda args args f 1 2 3 返回错误Foo object is not callable 为什么
如何在单元测试中模拟 JPA 存储库的 save 方法

例如我在 UserService 中有这个方法 Override Transactional public UserDto create UserDto userDto User dbUser userRepository findOne
Google Chart 时间线参与者未能绘制

我使用 Google 图表创建了一个时间线可视化并添加了一个带有图表范围过滤器的仪表板以允许人们四处移动甚至放大以便更清楚地看到某些条目虽然它大多数情况下有效但有时会抛出参与者未能抽奖错误我已经查找了此类错误的其他响应但找
pyspark的approx_count_distinct中rsd的解释是什么以及更改它的后果是什么？

在 pyspark 的近似计数不同 https spark apache org docs 3 1 2 api python reference api pyspark sql functions approx count distinct

pyspark的approx_count_distinct中rsd的解释是什么以及更改它的后果是什么？

pyspark的approx_count_distinct中rsd的解释是什么以及更改它的后果是什么？ 的相关文章

随机推荐

热门标签

pyspark的approx_count_distinct中rsd的解释是什么以及更改它的后果是什么？的相关文章