我正在尝试使用 bigquery 通过 gdeltv2 数据集查找 4 个以色列新闻网站中被提及最多的 10 个人。我成功获得了被提及最多的 10 个人,现在我想从前 10 名名单中排除两个人:“Maccabi Haifa”和“Reuben Castro”。我正在使用标准 SQL bigqury 代码。
我使用以下代码创建了数据集:
CREATE OR REPLACE TABLE
`top-reef-311415.56146_2021_Gad.israel_media` AS
SELECT
*
FROM
`gdelt-bq.gdeltv2.gkg_partitioned`
WHERE
SourceCommonName IN ('israelhayom.co.il',
'ynet.co.il',
'walla.co.il',
'haaretz.co.il')
AND LOWER(TranslationInfo) LIKE '%heb%';
然后使用此代码创建 10 个提及最多的表格,不包括“Maccabi Haifa”和“Reuben Castro”:
SELECT
person,
COUNT(1) AS count_mentions,
COUNT(DISTINCT url) AS count_distinct_urls
FROM
`top-reef-311415.56146_2021_Gad.israel_media_person`
WHERE person <> 'Maccabi Haifa ' OR person <> 'Reuben Castro '
GROUP BY
person
ORDER BY
count_mentions DESC
LIMIT
10;
在结果表中,我仍然得到一张包含他们两个的表。我将非常感谢正确的代码来生成预期的结果:
person count_mentions count_distinct_urls
Benjamin Netanyahu 33120 20768
Donald Trump 13787 7821
Gaza Gaza 13322 7654
Medinat Yisrael 12768 9148
Benny Gantz 10838 5736
Oz Muallem 10668 3891
Reuben Schwartz 9343 3644
Yedioth Ahronoth 8825 4491
Moshe Kahlon 8507 6537
Miri Regev 7915 4944
谢谢。