BigQuery 中交叉联接后的行聚合

2023-12-23

假设您在 BigQuery 中有下表：

A = user1 | 0 0 |
    user2 | 0 3 |
    user3 | 4 0 |

交叉连接后，您有

dist = |user1  user2  0 0 , 0 3 |  #comma is just showing user val seperation
       |user1  user3  0 0 , 4 0 |
       |user2  user3  0 3 , 4 0 |

如何在 BigQuery 中执行行聚合来计算跨行的成对聚合。作为典型的用例，您可以计算两个用户之间的欧几里德距离。我想计算两个用户之间的以下指标：

sum(min(user1_row[i], user2_row[i]) / abs(user1_row[i] - user2_row[i]))

对每对用户的所有 i 求和。

例如，在 Python 中，您只需：

for i in np.arange(row_length/2)]):
dist.append([user1, user2, np.sum(min(r1[i], r2[i]) / abs(r1[i] - r2[i]))])

从丑陋的方式开始：您可以将数学压平到查询中。也就是转for i in ... sum(min(...)/abs(...))进入对每个字段进行操作的 SQL。注意MIN and SUM是您不想使用的聚合函数。而是使用+对于总和和IF(a < b, a, b) for MIN. ABS(a, b)好像IF(a < b, b-a, a-b)。如果你只是计算欧几里德距离，你可以这样做

SELECT left.user, right.user, 
  SQRT((left.x-right.x)*(left.x-right.x) 
     + (left.y-right.y)*(left.y-right.y) 
     + (left.z-right.z)*(left.z-right.z)) as dist 
FROM (
    SELECT * 
    FROM dataset.table1 AS left 
    CROSS JOIN dataset.table1 AS right)

更好的方法是用户定义函数，并将向量创建为重复值。然后你可以写一个DISTANCE()对交叉连接左侧和右侧的两个数组执行计算的函数。如果您尚未加入 UDF Beta 计划并想加入，请联系 Google Cloud 支持。

最后，如果您更改架构{user:string, field1:float, field2:float, field3:float,...} to {user:string, fields:[field:float]}

然后，您可以使用位置展平该字段并对其进行交叉连接。如：

SELECT
  user,
  field,
  index,
FROM (FLATTEN((
  SELECT  
    user,
    fields.field as field,
    POSITION(fields.field) as index,
  from [dataset1.table1]
), fields))

如果将其另存为视图，请将其命名为“dataset1.flat_view”

然后你就可以加入：

SELECT left.user as user1, right.user as user2,
       left.field as l, right.field as r,
FROM dataset1.flat_view left
JOIN dataset1.flat_view right 
ON left.index = right.index
WHERE left.user != right.user

这将为每对用户和每个字段匹配字段提供一行。您可以将其保存为视图“dataset1.joined_view”。

最后，您可以进行聚合：

既然你想要这个：

sum(min(user1_row[i], user2_row[i]) / abs(user1_row[i] - user2_row[i]))

它看起来像：

SELECT user1, user2, 
    SUM((if (l < r, l, r)) / (if (l > r, l-r, r-l))
FROM [dataset1.joined_view] 
GROUP EACH BY user1, user2

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

BigQuery 中交叉联接后的行聚合的相关文章

如何按月（“年”和“月”）对表进行分区并自动创建每月分区？

我正在尝试按两者对表进行分区Year and Month 我将通过其进行分区的列是具有 ISO 格式 20150110 20150202 等的日期时间类型列例如我有 2010 年 2011 年 2012 年的销售数据我希望数据按年份
在 Microsoft Access 中编写查询，字段描述错误 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
使用 MSSQL 中的附加 max() 条件从数据库中检索每组中的最后一条记录

这是一个后续问题从数据库中检索每组中的最后一条记录 SQL Server 2005 2008 https stackoverflow com questions 4751913 retrieving last record in each
如何解决postgresql中group by和聚合函数的问题

我正在尝试编写一个查询来划分两个 SQL 语句但它显示了我 ERROR column temp missed must appear in the GROUP BY clause or be used in an aggregate fu
收到警告：空值被聚合或其他 SET 操作消除

我有这个架构 create table t id int d date insert into t id d values 1 getdate 2 NULL 做的时候 declare mindate date select mindate
PostgreSQL 对 string\varchar 的各种清理

我必须通过以下方式清理一些 varchar 删除特殊字符例如来自封闭列表我已经成功地通过大量使用replace regexp replace来做到这一点但我正在寻找类似于SQL Server中的东西删除以下数字但不删除相邻的数字含
没有找到适合 jdbc.sqlite 的驱动程序

所以首先我之前看到过这个问题我查看了以前的答案并尝试用它来解决我的问题但是我做不到我正在创建一个图书馆系统并为注册类和登录类编写了代码并为数据库创建了一个类当我尝试运行该程序时我收到一条消息指出没有找到合适的驱动程序后跟数
将行连接成 CLOB

关于这个主题有很多类似的问题但我找不到任何解决方案来考虑最终结果对于 varchar2 来说太大的任何问题所以我想做的就是改变这一点 Column1 Column2 1 Hello 1 world 1 please help 2 Tha
为什么Mysql的Group By和Oracle的Group by行为不同

为什么Mysql的Group By和Oracle的Group by行为不同我多次发现 Mysql group By 功能和 Oracle 的 GroupBy 功能表现不同很多时候我在Oracle中发现错误这实际上是错误的查询但是My
如何优化 postgres 查询

我正在运行以下查询 SELECT fat FROM Table1 fat LEFT JOIN modo captura mc ON mc id fat modo captura id INNER JOIN loja lj ON lj id
有没有由 HTML + css + javascript 驱动的 sql 编辑器？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案语法高亮 sql代码格式代码镜像 http codemirror net 会成功的这太好了非常容
如何在标准 SQL 中使用 Unicode 规范化删除变音符号（例如重音符号）？

如何使用新功能从 BigQuery 中的字符串中删除变音符号normalize https cloud google com bigquery docs reference standard sql functions and operat
如何从 SQL Server 的表中获取列名？

我想查询一个表的所有列的名称我发现如何做到这一点 Oracle https stackoverflow com q 452464 419956 MySQL https stackoverflow com q 193780 419956 P
如何：SQL 还是 NOSQL？

我还没有遇到过这个问题但这就是我的想法非常肤浅和简单化恕我直言如果您有键值类型的存储并且所有访问都是键查找请使用 NOSQL 解决方案如果您想要基于值和子值进行查找或者有一些更复杂的东西例如联接您会选择关系解决方案事务
创建用于插入、修改和删除的数据库触发器的正确语法是什么

我有一个看起来像是 SQL Server 中数据库触发器的基本场景但我遇到了一个问题我有桌子Users 身份证姓名电话等我有桌子用户历史记录 id user id 操作字段时间戳我想要一个数据库触发器可以随时插入更新或删
java.sql.SQLException: ORA-01005: 给定的密码为空；登录被拒绝

我在尝试连接到数据库时遇到以下异常 java sql SQLException ORA 01005 null password given logon denied at oracle jdbc driver T4CTTIoer proce
oracle中是否有相当于concat_ws的东西？

我有大量的列试图聚合在一起其中大多数都有 NULL 值我想分隔确实以出现的值但我在oracle中找不到有效的方法来做到这一点 CONCAT WS 正是我所需要的因为它不会在 NULL 值之间添加分隔符但 Oracle 不支持这一点
在 SQL 查询中使用 fn_Split

我一直在努力争取fn Split在我的查询中正常工作我到处搜索并在这里找到了似乎接近我需要的答案但我仍然无法使其发挥作用基本上我试图返回与数组中的条目匹配的记录我已经有了一个与我的数据库一起使用的表值函数如下所示 Select
oracle 数据透视表中的列

示例选择 select from select 1 cnt 2 sm 55 name 12 month 2011 year 12 2011 mnth txt from dual union all select 1 cnt 2 sm 54
选择表中的人员并排除妻子，但合并他们的名字

我有一张桌子Person PersonID FirstName LastName 1 John Doe 2 Jane Doe 3 NoSpouse Morales 4 Jonathan Brand 5 Shiela Wife And a R

随机推荐

Spring-Batch 复合编写器如何跳过异常

我正在使用 Spring Batch 我的步骤配置如下 Bean public Step testStep JdbcCursorItemReader
Azure 模拟器卡住

我正在从事 azure WorkerRole 项目VS2015 SDK 2 9 该角色在云中运行良好但是当我尝试使用 FullEmulator 在本地运行它时角色无法启动面料角色实例部署29 116 MyComp Engine D
PresentModalViewController 使我的应用程序崩溃

我知道这是最简单的事情之一但几天来我一直在努力反对这一点我过去已经做过很多次了但由于某种原因尝试呈现模式视图控制器只会使应用程序崩溃到黑屏控制台中没有报告任何内容我希望有人可能遇到过这个问题并提供一些建议此代码是从 UIVi
如何使用 angular.foreach 比较两个 JavaScript 数组

我有两个 javascript 对象 var obj1 key1 value1 key2 value2 And var obj2 key1 value1 key2 someOtherValue 正如您所看到的两个对象之间存在一个差异key
用于在字段级别区分 CSV 文件并将结果输出到 CSV 并保持颜色的工具

我正在尝试比较 2 个 csv 文件在字段级别的差异并用颜色编码差异我尝试了这个命令 git diff color words space x csv y csv 但有两个问题它将彼此不同的单元格数据放在一起我不想要这样我只需要在
创建新工作区

Modeshape 文档的第 7 1 6 节说您的应用程序现在可以使用标准 JCR 2 0 API 创建和删除工作区 JCR 2 0 文档说使用 Workspace createWorkspace String name 如何使用本文底部
addClass（“test”）给出错误：TypeError：未定义不是函数

在控制台中我有 myCssClass 0 parentNode li span class myCssClass some text span li 我想为父级添加 css 类span 对于标签 li 我尝试这样 myCssClass 0
Android：如何根据设备时区获取默认日期格式

有没有简单的方法可以根据用户的时区获取默认日期格式 The SimpleDateFormat 给出根据用户区域设置的日期格式我正在寻找一种场景需要将提供的日期转换为基于时区的日期格式例如用户将其区域设置设置为中文并且采用德国时区
Java 最小化依赖关系

我遇到过这样的情况一小段Java代码有大量依赖的jar 然而这些 jar 内部的依赖关系非常浅在大多数情况下它仅依赖于单个接口的 jar 我不想将所有 jar 与应用程序一起分发而是只想将特定的类文件分发到它实际使用的 jar 中
记录 JUnit 测试运行所需的时间

我想记录我的 JUnit 测试以编程方式运行需要多长时间我在各种测试类中有大量测试我想了解每个单独的测试方法运行需要多长时间我可以更改继承结构或以不同方式注释方法但我希望避免在测试方法本身以及用于设置测试业务逻辑的之前之后方法中添
Git 说是最新的，尽管更改是远程进行的

使用 git bash 我在我的主分支上工作推送它并决定我想要实现一个新功能我为此创建了一个新分支后来我添加了另一个功能创建了另一个分支我测试了所有内容并且它正常工作所以我决定将所有内容合并到我的主分支我将两个新分支推送到远程
如何将.plist文件中的数据结构读取到NSArray中

我正在使用以下内容手动创建数据结构 NSDictionary league1 NSDictionary alloc initWithObjectsAndKeys Barclays Premier League name Premier Le
如何从路径中删除 Microsoft.PowerShell.Core\FileSystem::\\

我正在使用 powershell 与文件夹及其所有子文件夹进行比较并且它在我的本地计算机上工作正常但是当我在服务器上尝试它时它给了我错误并附加 Microsoft PowerShell Core FileSystem 到所有文件如果
如何使用 PHP 将元素添加到 JSON 对象？ [复制]

这个问题在这里已经有答案了我有这个 JSON 数组我想使用 PHP 向其中添加另一个值使用 PHP 将 ID 和名称添加到该数组的最简单方法是什么 id 1 name Charlie id 2 name Brown id 3 name
获取node.js应用程序的最大堆大小

现在我在paas平台上使用node js 并且容器有内存限制现在我想获取node js应用程序的堆大小的最大值我知道使用参数 max old space size 我可以设置最大堆大小但我想知道如何获取 max old space s
Selenium Webdriver sendkeys 在 IE9.0 中不触发 onchange 事件

我正在使用 Java 为 ExtJs 中构建的应用程序编写 Selenium 测试脚本我在附加到 onchange 事件的页面之一中有一个输入字段每当用户修改字段中的文本时就会触发 onchange 事件我正在使用 WebDrive
在 PyDev 控制台中停止正在运行的命令

我使用 PyDev 控制台运行长脚本并且经常希望在命令中间停止在常规 python shell 中我按 ctrl c 它会通过键盘中断停止命令但在 PyDev 控制台中它会进行文本复制如何停止此控制台中的命令而不终止它如果您使
何时应使用 Readonly 和 Get only 属性

在 NET 应用程序中何时应使用 ReadOnly 属性何时应仅使用 Get 这两者有什么区别呢 private readonly double Fuel 0 public double FuelConsumption get retu
@TargetApi 注解仅适用于一个 Api 级别或更高级别吗？

我在我的应用程序中使用 TargetApi 23 TargetApi 23 Override public void onAttach Context context super onAttach context onAttachToCon
BigQuery 中交叉联接后的行聚合

假设您在 BigQuery 中有下表 A user1 0 0 user2 0 3 user3 4 0 交叉连接后您有 dist user1 user2 0 0 0 3 comma is just showing user val sepe

BigQuery 中交叉联接后的行聚合

BigQuery 中交叉联接后的行聚合 的相关文章

随机推荐

热门标签

BigQuery 中交叉联接后的行聚合的相关文章