问:如何从表中排除人名

2024-04-05

我正在尝试使用 bigquery 通过 gdeltv2 数据集查找 4 个以色列新闻网站中被提及最多的 10 个人。我成功获得了被提及最多的 10 个人,现在我想从前 10 名名单中排除两个人:“Maccabi Haifa”和“Reuben Castro”。我正在使用标准 SQL bigqury 代码。

我使用以下代码创建了数据集:

    CREATE OR REPLACE TABLE
  `top-reef-311415.56146_2021_Gad.israel_media` AS
SELECT
  *
FROM
  `gdelt-bq.gdeltv2.gkg_partitioned`
WHERE
  SourceCommonName IN ('israelhayom.co.il',
    'ynet.co.il',
    'walla.co.il',
    'haaretz.co.il')
  AND LOWER(TranslationInfo) LIKE '%heb%';

然后使用此代码创建 10 个提及最多的表格,不包括“Maccabi Haifa”和“Reuben Castro”:

SELECT
  person,
  COUNT(1) AS count_mentions,
  COUNT(DISTINCT url) AS count_distinct_urls
FROM
  `top-reef-311415.56146_2021_Gad.israel_media_person`
WHERE person <> 'Maccabi Haifa ' OR person <> 'Reuben Castro '
GROUP BY
  person
ORDER BY
  count_mentions DESC
LIMIT
  10;

在结果表中,我仍然得到一张包含他们两个的表。我将非常感谢正确的代码来生成预期的结果:

person          count_mentions  count_distinct_urls
Benjamin Netanyahu 33120         20768
Donald Trump       13787         7821
Gaza Gaza          13322         7654
Medinat Yisrael    12768         9148
Benny Gantz        10838         5736
Oz Muallem         10668         3891
Reuben Schwartz     9343         3644
Yedioth Ahronoth    8825         4491
Moshe Kahlon        8507         6537
Miri Regev          7915         4944

谢谢。


这可能有效:-

SELECT
  person,
  COUNT(1) AS count_mentions,
  COUNT(DISTINCT url) AS count_distinct_urls
FROM
  `top-reef-311415.56146_2021_Gad.israel_media_person`
WHERE person NOT IN ('Maccabi Haifa', 'Reuben Castro')
GROUP BY
  person
ORDER BY
  count_mentions DESC
LIMIT
  10;
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

问:如何从表中排除人名 的相关文章

  • 如何通过 Google BigQuery 的 Python 客户端库设置现有表过期?

    使用官方的Google BigQuery 的 Python 客户端 https googleapis dev python bigquery latest index html似乎没有办法设置桌子expires 或其他属性 上existin
  • 问:如何从表中排除人名

    我正在尝试使用 bigquery 通过 gdeltv2 数据集查找 4 个以色列新闻网站中被提及最多的 10 个人 我成功获得了被提及最多的 10 个人 现在我想从前 10 名名单中排除两个人 Maccabi Haifa 和 Reuben
  • Python:如何在 40 秒内更新 Google BigQuery 中的值?

    我有一张桌子在Google BigQuery我使用 Python 访问和修改pandas功能read gbq and to gbq 问题是追加 100 000 行大约需要 150 秒 而追加 1 行大约需要 40 秒 我想更新表中的值而不是
  • 创建一组链接的项目

    有一个购买不同产品的用户列表 我想按用户购买行为对商品进行分组 如果任何用户购买两个产品 则这些产品应属于同一组 购买链接产品 user item 1 cat food 1 cat toy 2 cat toy 2 cat snacks 10
  • Bigquery 如果字段存在

    简而言之 有没有办法在不存在的 BQ 字段中进行查询 并接收这些字段的 null 值 我有几乎同样的问题BigQuery IF 字段存在 THEN https stackoverflow com questions 32276601 big
  • 如何使用 BigQuery 提取 JSON 对象中的所有键

    BigQuery 具有在实时交互式查询中解析 JSON 的功能 只需将 JSON 编码的对象存储为字符串 然后使用 JSON EXTRACT SCALAR 等函数进行实时查询 但是 我无法找到一种方法来发现这些对象中的所有键 属性 我可以为
  • bigquery 允许的表数量是否有限制

    BigQuery 中可以拥有的表数量有限制吗 我正在尝试创建多个小表以减少查询成本 谢谢 表的数量没有限制 由于查询字符串的长度有 10k 的限制 因此您可能会在查询所有这些内容时遇到问题
  • Bigquery 中的动态 UnPivot

    我想使用 bigquery 脚本动态地将列反转为行 我正在尝试复制我们所拥有的here https towardsdatascience com pivot in bigquery 4eefde28b3be但使用 upivot 运算符 Th
  • BigQuery with Airflow - 缺少projectId

    尝试下面的例子 https cloud google com blog big data 2017 07 how to aggregate data for bigquery using apache airflow https cloud
  • Dataproc:使用 PySpark 从 BigQuery 读取和写入数据时出现错误

    我正在尝试读取一些 BigQuery 数据 ID my project mydatabase mytable 原始名称受保护 来自用户管理的 Jupyter Notebook 实例 内部Dataproc https cloud google
  • 写入 BigQuery 时处理卡住

    我正在使用云数据流将数据从 Pub Sub 消息导入到 BigQuery 表 我正在使用 DynamicDestinations 因为这些消息可以放入不同的表中 我最近注意到该进程开始消耗所有资源 并且消息表明该进程被卡住开始显示 Proc
  • 如何获取有权访问bigquery中的表的所有用户/组/服务帐户

    from pprint import pprint from google oauth2 import service account import googleapiclient discovery credentials service
  • 使用 Airflow BigqueryOperator 向 BigQuery 表添加标签

    我必须向 bigquery 表添加标签 我知道可以通过 BigQuery UI 来完成此操作 但如何通过气流运算符来完成此操作 Use case 用于计费和搜索目的 由于多个团队在同一项目和数据集下工作 我们需要将各个团队创建的所有表组合在
  • 可以在不填充数据的情况下创建 BigQuery 表/架构吗?

    是否可以在不先用数据填充的情况下创建表模式 最好使用 Google 的 python 客户端 谷歌的文档似乎没有提供明确的是或否的答案 他们建议创建一个表 https cloud google com bigquery docs table
  • GCP BigQuery如何通过python api设置表的到期日期

    我正在使用 BigQuery Python API 创建表 并且想为该表设置一个到期日期 以便该表会在特定天数后自动删除 这是我的代码 client bq Client job config bq QueryJobConfig datase
  • BigQuery - 预定查询更新通知电子邮件

    有没有办法将计划查询通知电子邮件更新为自定义内容 默认情况下 它是创建者的电子邮件 但是 这通常是没有真正电子邮件收件人的服务帐户 例如 通过 terraform 配置 我们将拥有一个服务帐户 我们希望将电子邮件通知目标从 SA 更新为支持
  • 如何使用第二行中的值填充第一行中的空值?

    我正在尝试编写一个查询 仅显示每个名称的第一行 但这些行的标题为空 因此我想从紧邻的下一行中提取它们的标题 table1 Name Title Row Dan NULL 1 Dan Engineer 2 Dan Developer 3 Ja
  • BigQuery 标准 SQL 错误,根本未触及日期字段时的时间戳无效

    答案here https stackoverflow com questions 41195883 bigquery standard sql error invalid timestamp对我没有帮助 尽管我在一个相当简单的更新查询中遇到
  • Bigquery 中数组对之间的余弦相似度

    我创建了一个表 其中有一对 ID 和每个 ID 的坐标 以便我可以计算它们之间的成对余弦相似度 The table looks like this 坐标的维度数当前为 128 但可能会有所不同 但同一个表中一对 ID 的数字维度始终相同 c
  • 从 BigQuery 中删除停用词?

    我有一大堆来自 reddit 的评论 这些字符串被分割成单词 删除标点符号 并进行量化以显示特定 subreddit 上最常用的单词 SELECT word COUNT as num words FROM FLATTEN SELECT SP

随机推荐