加入 Google Bigquery

2024-01-16

我知道正在开展工作来改进 Bigquery 上的联接功能，不是在这里咆哮，但如果不能正确使用联接，将很难分析“广告”的“太字节”数据集。

好吧，回到问题，我有两个表，一个是 600 Megs，另一个是 50 Megs，我确实尝试进行连接，但出现了关于必须保留较小表的错误。我做了一些研究，我发现Bigquery如果两个表都大于 7MB，则认为它们很大？

因此，根据我在网上找到的一些建议，我确实选择了较小表的相关数据集并将其保存在一个新表中，新数据集为 12MB，两列包含 600K 行。然后我再次尝试查询，但仍然收到相同的错误：

Query Failed : Error: Large table cdrs_test.geoIP_Left must appear as the leftmost table in a join query

geoIP_Left 是 12 Megs，另一个表是 600Megs..

这个问题能以某种方式解决吗还是我被抓了？如果是这样，有人知道我可以用来分析支持连接的大数据集的任何其他服务吗？

编辑：这是实际的查询；

SELECT COUNT(results.cc_card) AS count,
       sum(results.sessiontime) AS time, 
       geoIP_Left.place AS place 
FROM cdrs_test.cdrs_2010_5 AS results 
JOIN cdrs_test.geoIP_Left AS geoIP_table 
  ON results.cc_card = geoIP_table.vcard 
WHERE results.sessiontime > 0 AND results.countryName Contains 'India' 
GROUP BY place;

您可以将此查询表示为仅引用来自的列的子选择cdrs_test.geoIP_Left您感兴趣的。请参阅第二个示例here https://developers.google.com/bigquery/docs/query-reference#smalljoin.

SELECT
  COUNT(results.cc_card) AS count,
  sum(results.sessiontime) AS time, 
  geoIP_table.place AS place 
FROM
  cdrs_test.cdrs_2010_5 AS results 
JOIN
  (SELECT place, vcard FROM cdrs_test.geoIP_Left)
AS
  geoIP_table 
ON
  results.cc_card = geoIP_table.vcard 
WHERE
  results.sessiontime > 0 AND results.countryName CONTAINS 'India' 
GROUP BY
  place;

您还可以简单地运行多个查询 - 请注意，您可以将查询结果显式保存为命名表，并在以后的查询中使用该表。

最后，另一种选择是使用（例如）MapReduce 转换管道或ETL tool https://developers.google.com/bigquery/docs/third_party_tools由 BigQuery ETL 合作伙伴之一提供。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googlebigquery

加入 Google Bigquery 的相关文章

BigQuery with Airflow - 缺少projectId

尝试下面的例子 https cloud google com blog big data 2017 07 how to aggregate data for bigquery using apache airflow https cloud
Dataproc：使用 PySpark 从 BigQuery 读取和写入数据时出现错误

我正在尝试读取一些 BigQuery 数据 ID my project mydatabase mytable 原始名称受保护来自用户管理的 Jupyter Notebook 实例内部Dataproc https cloud google
bigquery url 解码

有没有一种简单的方法可以在 BigQuery 查询语言中进行网址解码我正在使用一个表该表有一列包含某些值中的 URL 编码字符串例如 http xyz com example php url http 3A 2F 2Fwww exam
从 pandas 数据帧创建 BigQuery 表，无需显式指定架构

我有一个 pandas 数据框想从中创建一个 BigQuery 表我知道有很多帖子询问这个问题但到目前为止我能找到的所有答案都需要明确指定每列的架构例如 from google cloud import bigquery as bq
BigQuery 数据类型

我正在开始一个新项目只是想在定义表模式之前进行验证 BigQuery 是否支持以下以外的其他功能 string integer float boolean BigQuery 数据类型官方文档 https cloud google com
Bigquery：如何声明数组变量并使用 select 语句设置数据？

我试图在 BigQuery 上声明一个数组变量但无法在变量中放入 SQL 语句我找不到任何与此相关的主题我想将表的所有列名放入变量中所以我尝试了以下方法 DECLARE my array ARRAY
Google BigQuery：如何使用 SQL 创建新列

我想在不使用旧版 SQL 的情况下向现有表添加一列基本的 SQL 语法是 ALTER TABLE table name ADD column name datatype 我格式化了 Google BigQuery 的查询 ALTER TA
BigQuery REGEXP_MATCH 和重音：边界通配符失败？

在 GAS 中我可以正确地将重音符号与具有边界字符的正则表达式相匹配例如 b b 仅当字符是单独的单词时才匹配这在 GAS 中有效 function test regExp var str la s ance est Paris v
Bigtable 与 Bigquery 时间序列数据用例

我希望最终确定 Big table 与 Bigquery 的时间序列数据用例我曾经经历过https cloud google com bigtable docs schema design time series https cloud
BigQuery - 预定查询更新通知电子邮件

有没有办法将计划查询通知电子邮件更新为自定义内容默认情况下它是创建者的电子邮件但是这通常是没有真正电子邮件收件人的服务帐户例如通过 terraform 配置我们将拥有一个服务帐户我们希望将电子邮件通知目标从 SA 更新为支持
如何使用第二行中的值填充第一行中的空值？

我正在尝试编写一个查询仅显示每个名称的第一行但这些行的标题为空因此我想从紧邻的下一行中提取它们的标题 table1 Name Title Row Dan NULL 1 Dan Engineer 2 Dan Developer 3 Ja
将大型 CSV 加载到 Google BigQuery 时出错

将大型 CSV 加载到 bigquery 时出现错误我在网上阅读的所有地方都发现压缩文件有 5GB 大小限制但 CSV 没有限制加载操作中的 BigQuery 错误处理作业 bqjob r3016bbfad3037f 0000015
从 Google Apps 脚本运行保存的 bigquery 查询？

我们经常使用 Google Apps 脚本来运行 BigQuery 查询并将其放入 Google Sheet 中然而工作流程很烦人在 BigQuery 中运行查询直到正确为止复制粘贴到文本编辑器以放入换行斜杠在应用程序脚本中运
在 Google Bigquery 中创建表 SQL 语法

我一直在读bigquery 文档 https cloud google com bigquery loading data从昨天深夜开始了解的就很少了它讨论了通过不同的方法加载数据但没有说明如何创建我要向其中加载数据的表当我使用 W
bq 命令行工具：当文本包含“ > ”或“ < ”时查询失败

我在使用 bq 命令行工具运行包含 gt 或下面的前两个示例显示当我尝试从 id gt 300 的表中选择行时不会返回任何内容但当我选择 id 301 时我会得到结果后两个示例表明当我尝试选择 id 有谁知道为什么会发生这种情
BigQuery：如何计算每天和类别的不同访问者的运行计数？

在 Google BigQuery 中我有一个像这样的表开始时间 STRING 访客 ID STRING 类别 STRING 此内容的示例 startTime visitorId category 2013 11 27 00 00 00
查询文本指定 use_legacy_sql:false，而 API 选项指定:true

我将 standardSQL 与 bigrquery 一起使用 library bigrquery project lt sql lt standardSQL SELECT result lt query exec sql project
Firebase 导出到 BigQuery：保留群组查询

Firebase 通过 Firebase 远程配置提供拆分测试功能但缺乏使用用户属性实际上具有任何属性过滤群组部分中的保留的能力为了寻求此问题的解决方案我正在寻找 BigQuery 因为 Firebase Analytics 提供
比较 BigQuery 中的表

我如何比较两个表 Table1 and Table2 并查找所有新条目或更改Table2 使用 SQL Server 我可以使用 Select from Table1 Except Select from Table2 这是我想要的示例 T
如何添加“字符串数组”作为 BigQuery 的架构值

我想将字符串值数组存储在 BigQuery 中的单个列中为此我需要首先创建一个具有正确架构的表该数组的模式标识符是ARRAY

随机推荐

无法将类型“UIView”的值转换为预期参数类型“UIWebView”

我正在使用 cordova plugin iosrtc 我遇到以下错误 iOSRTCApp master platforms ios iOSRTCApp Plugins cordova plugin iosrtc iosrtcPlugin
如何重定向到 ASP.NET MVC 中的调用页面？

假设我有一个控制器操作可以从用户的购物篮中删除一个项目通过对 url delete id 执行 POST 来触发此控制器操作如果我的应用程序上有多个页面将发布到此 url 那么如何构造控制器操作以重定向回发布到它的页面我就是做这个的
cordova+xcode ios 构建中的错误

当尝试交付我的应用程序内置于 vs2015 cordova remote xcode 7 中时我在应用程序加载器中收到以下错误提前致谢当发布专门使用 Xcode 7 创建的应用程序时 Cordova 的 iOS 实现似乎存在问题
为什么我们应该使用 QUOTENAME 函数？

我认识了报价名称 https msdn microsoft com en us library ms176114 aspx功能但我不明白我可以用它做什么为什么它的应用如此广泛 select quotename abc abc selec
python中同时循环两个for循环的问题

我想在python中同时执行两个for循环以便同时读取两个不同文件中具有相同索引的两行这是我尝试过的 def load dataset train path str label path str gt Tuple List str Li
获取给定时区的当前时间：android

我是 Android 新手目前面临着获取给定时区的当前时间的问题我得到格式为 GMT 7 的时区即字符串我有系统时间有没有一种干净的方法来获取上述给定时区的当前时间任何帮助表示赞赏谢谢编辑尝试这样做 public Stri
SharpDevelop 错误：“无法识别工具版本‘12.0’...”

过去几个月我一直在使用 SharpDevelop 使用 Excel DNA 开发 vb net 项目突然间当我像往常一样打开我的项目时出现以下错误无法识别工具版本 12 0 可用的工具版本有 2 0 3 5 4 0 C path t
chrome.action.onClicked 或 browserAction.onClicked 不起作用

我试图在单击工具栏右上角中的扩展程序图标时执行一个函数我添加了chrome browserAction onClicked addListener在background js 文件中但它不起作用请帮我最终我的目标是通过 HTM
无需 AppDelegate 的 SwiftUI 远程推送通知（Firebase 云消息传递）

我正在尝试在 SwiftUI 2 0 中实现远程推送通知但没有 AppDelegate 我知道我可以通过以下方式提供一个 UIApplicationDelegateAdaptor AppDelegate self var appDeleg
在 ASP.NET 中使用 bootstrap modalpopup

我有一个Products显示产品列表的页面当我点击Details按钮我想在引导模式弹出窗口中显示产品详细信息我想获取其中一项产品详细信息但此代码获取所有产品详细信息我该如何解决这个查询 aspx 代码
从 n 层客户端遍历对象图

我是一名学生目前正在尝试使用 Nhibernate WCF WPF 的 Net n 层应用程序做得非常糟糕的事情之一是对象图序列化事实上它根本没有完成目前关联被忽略我们到处都在使用 DTO 据我所知一种继续进行的方法是预定义应该
展平 Java 8 可选管道中的元素列表

我有一个id值可以是null 然后我需要用这个调用一些服务id获取交易列表并获取第一个不null从列表中进行交易目前我有这个工作代码 Optional ofNullable id map id gt service findTrades
预加载 SVG 图像

我有大约一百个简单的 SVG 图像它们存储在大约五个不同的图像文件夹中目前当需要显示它们时就立即检索它们这在大多数情况下是有效的但有时确实会导致闪烁我想消除这种闪烁有没有办法在需要之前预加载这些图像以便将它们缓存我在这里
Spring Data Rest：“无法从 @EntityScan 配置 LocalContainerEntityManagerFactoryBean”

我有一个 REST 服务 spring boot 应用程序包含两个独立的 Maven 项目第一个myapp data包括 Spring Data JPA Spring Data Rest Entities 和 Rest Reposito
HTML 表单在点击提交按钮时执行一些“操作”

我想了解 HTML 表单例如我有两个用于名字和姓氏的输入文本字段以及一个提交按钮单击提交按钮时我希望网页显示类似以下内容的内容您的名字是名字姓氏
为什么 List.ForEach 允许修改其列表？

如果我使用 var strings new List
为 nextjs 默认服务器上的静态文件服务设置缓存控制标头

我正在使用默认的 nextjs 服务器通过此命令运行我的 nextjs 程序next start 但是我无法更改公共文件夹下文件的缓存控制标头有没有什么方法可以在不设置自定义服务器的情况下设置缓存控制标头有未记录的功能或错误但它有效
如何检查批处理脚本中的参数（或变量）是否为数字

我需要检查传递给 Windows 批处理文件的参数是否为数值如果检查也适用于变量那就太好了我找到了一个answer https superuser com a 404359到类似的question https superuser co
找不到用于调试 .NET 源代码的 .cs 文件

我尝试按照以下步骤设置调试 NET 源MDSN 演练 https msdn microsoft com en us library cc667410 aspx 符号缓存已正确设置检查启用 NET Framework 源步进也是如此但
加入 Google Bigquery

我知道正在开展工作来改进 Bigquery 上的联接功能不是在这里咆哮但如果不能正确使用联接将很难分析广告的太字节数据集好吧回到问题我有两个表一个是 600 Megs 另一个是 50 Megs 我确实尝试进行连接但出

加入 Google Bigquery

加入 Google Bigquery 的相关文章

随机推荐

热门标签