Dataproc：使用 PySpark 从 BigQuery 读取和写入数据时出现错误

2024-04-28

我正在尝试读取一些 BigQuery 数据（ID：my-project.mydatabase.mytable[原始名称受保护]）来自用户管理的 Jupyter Notebook 实例，内部Dataproc https://cloud.google.com/dataproc?hl=es工作台。我正在尝试的灵感来自于this https://cloud.google.com/dataproc-serverless/docs/guides/bigquery-connector-spark-example?hl=en#submit_a_pyspark_wordcount_batch_workload，更具体地说，代码是（请阅读关于代码本身的一些附加注释）：

from pyspark.sql import SparkSession
from pyspark.sql.functions import udf, col
from pyspark.sql.types import IntegerType, ArrayType, StringType
from google.cloud import bigquery

# UPDATE (2022-08-10): BQ conector added
spark = SparkSession.builder.appName('SpacyOverPySpark') \
                    .config('spark.jars.packages', 'com.google.cloud.spark:spark-bigquery-with-dependencies_2.12:0.24.2') \
                    .getOrCreate()

# ------------------ IMPORTING DATA FROM BIG QUERY --------------------------

# UPDATE (2022-08-10): This line now runs...
df = spark.read.format('bigquery').option('table', 'my-project.mydatabase.mytable').load()

# But imports the whole table, which could become expensive and not optimal
print("DataFrame shape: ", (df.count(), len(df.columns)) # 109M records & 9 columns; just need 1M records and one column: "posting"

# I tried the following, BUT with NO success:
# sql = """
# SELECT `posting`
# FROM `mentor-pilot-project.indeed.indeed-data-clean`
# LIMIT 1000000
# """
# df = spark.read.format("bigquery").load(sql)
# print("DataFrame shape: ", (df.count(), len(df.columns)))

# ------- CONTINGENCY PLAN: IMPORTING DATA FROM CLOUD STORAGE ---------------

# This section WORKS (just to enable the following sections)
# HINT: This dataframe contains 1M rows of text, under a single column: "posting"
df = spark.read.csv("gs://hidden_bucket/1M_samples.csv", header=True)

# ---------------------- EXAMPLE CUSTOM PROCESSING --------------------------

# Example Python UDF Python
def split_text(text:str) -> list:
    return text.split()

# Turning Python UDF into Spark UDF
textsplitUDF = udf(lambda z: split_text(z), ArrayType(StringType()))

# "Applying" a UDF on a Spark Dataframe (THIS WORKS OK)
df.withColumn("posting_split", textsplitUDF(col("posting")))

# ------------------ EXPORTING DATA TO BIG QUERY ----------------------------

# UPDATE (2022-08-10) The code causing the error:

# df.write.format('bigquery') \
#   .option('table', 'wordcount_dataset.wordcount_output') \
#   .save()

# has been replace by a code that successfully stores data in BQ:

df.write \
  .format('bigquery') \
  .option("temporaryGcsBucket", "my_temp_bucket_name") \
  .mode("overwrite") \
  .save("my-project.mynewdatabase.mytable")

使用 SQL 查询从 BigQuery 读取数据时，触发的错误为：

Py4JJavaError: An error occurred while calling o195.load.
: com.google.cloud.spark.bigquery.repackaged.com.google.inject.ProvisionException: Unable to provision, see the following errors:

1) Error in custom provider, java.lang.IllegalArgumentException: 'dataset' not parsed or provided.
  at com.google.cloud.spark.bigquery.SparkBigQueryConnectorModule.provideSparkBigQueryConfig(SparkBigQueryConnectorModule.java:65)
  while locating com.google.cloud.spark.bigquery.SparkBigQueryConfig

1 error
    at com.google.cloud.spark.bigquery.repackaged.com.google.inject.internal.InternalProvisionException.toProvisionException(InternalProvisionException.java:226)
    at com.google.cloud.spark.bigquery.repackaged.com.google.inject.internal.InjectorImpl$1.get(InjectorImpl.java:1097)
    at com.google.cloud.spark.bigquery.repackaged.com.google.inject.internal.InjectorImpl.getInstance(InjectorImpl.java:1131)
    at com.google.cloud.spark.bigquery.BigQueryRelationProvider.createRelationInternal(BigQueryRelationProvider.scala:75)
    at com.google.cloud.spark.bigquery.BigQueryRelationProvider.createRelation(BigQueryRelationProvider.scala:46)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:332)
    at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:242)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:230)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:197)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:282)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:238)
    at java.lang.Thread.run(Thread.java:750)
Caused by: java.lang.IllegalArgumentException: 'dataset' not parsed or provided.
    at com.google.cloud.bigquery.connector.common.BigQueryUtil.lambda$parseTableId$2(BigQueryUtil.java:153)
    at java.util.Optional.orElseThrow(Optional.java:290)
    at com.google.cloud.bigquery.connector.common.BigQueryUtil.parseTableId(BigQueryUtil.java:153)
    at com.google.cloud.spark.bigquery.SparkBigQueryConfig.from(SparkBigQueryConfig.java:237)
    at com.google.cloud.spark.bigquery.SparkBigQueryConnectorModule.provideSparkBigQueryConfig(SparkBigQueryConnectorModule.java:67)
    at com.google.cloud.spark.bigquery.SparkBigQueryConnectorModule$$FastClassByGuice$$db983008.invoke(<generated>)
    at com.google.cloud.spark.bigquery.repackaged.com.google.inject.internal.ProviderMethod$FastClassProviderMethod.doProvision(ProviderMethod.java:264)
    at com.google.cloud.spark.bigquery.repackaged.com.google.inject.internal.ProviderMethod.doProvision(ProviderMethod.java:173)
    at com.google.cloud.spark.bigquery.repackaged.com.google.inject.internal.InternalProviderInstanceBindingImpl$CyclicFactory.provision(InternalProviderInstanceBindingImpl.java:185)
    at com.google.cloud.spark.bigquery.repackaged.com.google.inject.internal.InternalProviderInstanceBindingImpl$CyclicFactory.get(InternalProviderInstanceBindingImpl.java:162)
    at com.google.cloud.spark.bigquery.repackaged.com.google.inject.internal.ProviderToInternalFactoryAdapter.get(ProviderToInternalFactoryAdapter.java:40)
    at com.google.cloud.spark.bigquery.repackaged.com.google.inject.internal.SingletonScope$1.get(SingletonScope.java:168)
    at com.google.cloud.spark.bigquery.repackaged.com.google.inject.internal.InternalFactoryToProviderAdapter.get(InternalFactoryToProviderAdapter.java:39)
    at com.google.cloud.spark.bigquery.repackaged.com.google.inject.internal.InjectorImpl$1.get(InjectorImpl.java:1094)
    ... 18 more

向BigQuery写入数据时，出现错误：

Py4JJavaError: An error occurred while calling o167.save.
: java.lang.ClassNotFoundException: Failed to find data source: bigquery. Please find packages at http://spark.apache.org/third-party-projects.html

UPDATE:(2022-09-10) 向BigQuery写入数据时出错的问题已经解决，请参考上面的代码以及下面的评论部分。

我究竟做错了什么？

讨论中发现的要点：

通过以下方式将 BigQuery 连接器添加为依赖项spark.jars=<gcs-uri> or spark.jars.packages=com.google.cloud.spark:spark-bigquery-with-dependencies_<scala-version>:<version>.
指定正确的表名<project>.<dataset>.<table> format.
数据帧写入器的默认模式是errorifexists。当写入不存在的表时，数据集必须存在，该表将自动创建。写入现有表时，模式需要设置为"append" or "overwrite" in df.write.mode(<mode>)...save().
写入 BQ 表时，执行以下任一操作

a) 直接写入（自支持）0.26.0 https://mvnrepository.com/artifact/com.google.cloud.spark/spark-bigquery-with-dependencies_2.12/0.26.0)
```
df.write \
  .format("bigquery") \
  .option("writeMethod", "direct") \
  .save("dataset.table")
```
b) 或间接写
```
df.write \
  .format("bigquery") \
  .option("temporaryGcsBucket","some-bucket") \
  .save("dataset.table")
```
看到这个doc https://github.com/GoogleCloudDataproc/spark-bigquery-connector#writing-data-to-bigquery.

通过 SQL 查询从 BigQuery 读取数据时，添加强制属性viewsEnabled=true and materializationDataset=<dataset>:

spark.conf.set("viewsEnabled","true")
spark.conf.set("materializationDataset","<dataset>")

sql = """
  SELECT tag, COUNT(*) c
  FROM (
    SELECT SPLIT(tags, '|') tags
    FROM `bigquery-public-data.stackoverflow.posts_questions` a
    WHERE EXTRACT(YEAR FROM creation_date)>=2014
  ), UNNEST(tags) tag
  GROUP BY 1
  ORDER BY 2 DESC
  LIMIT 10
  """
df = spark.read.format("bigquery").load(sql)
df.show()

看到这个doc https://github.com/GoogleCloudDataproc/spark-bigquery-connector#reading-data-from-a-bigquery-query.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Dataproc：使用 PySpark 从 BigQuery 读取和写入数据时出现错误的相关文章

如何获取右侧数据框中不在左侧数据框中的数据

我有两个数据帧我正在尝试输出其中一个数据帧中的数据而不是另一个数据帧中的数据我可以使用第一个数据帧中的数据但不能使用第二个数据帧中的数据 only new old merge new outer on Employee ID Ben
将嵌套循环计算转换为 Numpy 以加速

我的Python程序的一部分包含以下代码段其中一个新的网格是根据旧网格中找到的数据计算的网格是二维浮点数列表该代码使用了三个 for 循环 for t in xrange 0 t step for h in xrange 1 hei
如何使用 QWebView 显示 html。 Python？

如何在控制台中显示 HTML 格式的网页 import sys from PyQt4 QtGui import QApplication from PyQt4 QtCore import QUrl from PyQt4 QtWebKit i
可以memmap pandas系列。数据框怎么样？

看来我可以通过创建 mmap d ndarray 并使用它来初始化系列来对 python 系列的底层数据进行内存映射 def assert readonly iloc try iloc 0 999 Should be non editabl
从内存中发送图像

我正在尝试为 Discord 机器人实现一个系统该系统可以动态修改图像并将其发送给机器人用户为此我决定使用 Pillow PIL 库因为它对于我的目的来说似乎简单明了这是我的工作代码的示例它加载一个示例图像作为测试修改在其上
argparse 更改参数的定义

我按如下方式设置参数解析器 parser argparse ArgumentParser parser add argument point help enter a point e g 2 3 4 parser parse args po
pybind11：如何将 c++ 和 python 代码打包到一个包中？

我正在尝试使用 CMake 和 pybind 11 将现有的 Python 代码和新的 C 11 代码打包在一起我认为我缺少一些可以添加到 CMake 脚本中的简单内容但在任何地方都找不到它 pybind11 示例只有 C 代码和没有P
在我的 Mac 上以 root 身份运行 pip 时出现“权限被拒绝”

我开始使用我的 Mac 来安装 Python 包就像我在工作中使用 Windows PC 一样然而在我的 Mac 上我经常遇到没有权限写入日志文件或站点包时出错于是我想到了跑步pip install
Selenium 上的切换窗口

我在 Python 中使用 Selenium 和 PhantomJS 我需要打开一个新窗口并控制它出于测试目的我这样做 from selenium import webdriver driver webdriver PhantomJS
带有redirect_uri的social-auth-app-django Facebook后端状态

我知道我的问题听起来像是重复的但我到处寻找但没有找到任何解决方案我正在努力为我的 django web 应用程序实现社交登录到目前为止谷歌推特和雅虎登录均按预期工作但facebook总是给出以下错误 URL 被阻止此重定向失败
在Python中将用户昵称转换为正式名字

我正在尝试根据 Python 中的用户名字和姓氏映射来自不同系统的用户一个问题是名字在很多情况下都是昵称例如对于用户来说他的名字在一个系统中是 Dave 而在另一个系统中是 David python 中有没有简单的方法可以将这些
将 Selenium 与 PyCharm CE 结合使用

我正在尝试将 Selenium 与 PyCharm CE 一起使用我已经使用 pip install Selenium 安装了 Selenium 并且可以通过终端使用它但是当我尝试将它与 PyCharm 一起使用时出现导入错误 Imp
Pandas如何将多个函数应用于数据框

有没有办法像 DataFrameGroupBy agg 函数那样将函数列表应用于 DataFrame 中的每一列我发现了一个丑陋的方法来做到这一点 df pd DataFrame dict one np random uniform 0
如何在Python中获取套接字的外部IP？

当我打电话时socket getsockname 在套接字对象上它返回我的机器的内部 IP 和端口的元组但是我想找回我的外部IP 最便宜最有效的方式是什么如果没有外部服务器的配合这是不可能的因为您和另一台计算机之间可能存在任意
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
检测反射 DLL 注入

在过去的几年中恶意软件以及一些渗透测试工具如 Metasploit 的 meterpreter 负载已经开始使用反射 DLL 注入 PDF http www harmonysecurity com files HS P005 Ref
Django admin.py 未知命令：'collectstatic'

我已经从 django 1 2 7 升级到 django 1 5 1我正在使用 python 2 6 6当我尝试跑步时python manage py collectstatic i get 未知命令 collectstatic 从我的设置
django 南迁移，不设置默认值

我使用 South 来迁移我的 Django 模型然而南方有一个令人讨厌的错误它不会在 Postgres 数据库中设置默认值例子 created at models DateTimeField default datetime no
访问 Scrapy 内的 django 模型

是否可以在 Scrapy 管道内访问我的 django 模型以便我可以将抓取的数据直接保存到我的模型中我见过this https scrapy readthedocs org en latest topics djangoitem ht
matplotlib imshow() 和像素强度

我试图了解矩阵的值是如何输入到 matplotlib 的imshow 函数确定灰度模式下像素的强度考虑示例代码 import random import matplotlib pyplot as plt import matplotlib

随机推荐

Gerrit - 复制到 github

我通过配置 gerrit 复制 remote github url email protected cdn cgi l email protection MYUSERNAME name git push refs heads refs he
无法获取提供程序 androidx.core.content.FileProvider：java.lang.IllegalArgumentException：缺少 android.support.FILE_PROVIDER_PATHS 元数据？

我看了很多这样的帖子但还是不知道问题出在哪里我尝试更改 file paths xml 中的路径和名称文件路径 xml
与两个条件等效的 Google 电子表格 COUNTIF 公式

我有一个包含几列的 Google 文档电子表格在 D 列中我有值 Man OR Woman 在 G 列中我有值是或否我想做的是计算 MAN 回答是的次数所以有两个标准 1 Man 和 2 Yes 我有这个公式它只计算单
Laravel Eloquent：计算总价的最佳方法

我正在使用 Laravel 5 1 构建一个简单的买卖应用程序每个Buy Model都有很多BuyDetail 里面存储了购买的商品数量和buy price 我已经在模型上实现了表之间的关系 class Buy extends Model
专门逐行调试

我有一个用 Pascal 编写的脚本我会以这种方式调试它在每一行停止转储内存中所有变量的值然后转到下一行是否可以使用 gdb 或其他 Linux 开源工具来完成此操作使用选项编译文件 g fpc gpc g file pas R
为什么 itertools.chain 比扁平列表理解更快？

在评论中的讨论中这个问题 https stackoverflow com questions 49630581 why does python forbid the use of sum with strings有人提到虽然连接字符串序列
使用角度加载选择中的默认选项

我试图在我的选择中添加来自服务的默认选项我的选择
单击提交时将变量传递到新页面

我有一个页面其中有 2 个 dropdrownlists 和一个提交按钮当我单击提交时我想将下拉列表的值变量传递到另一个页面任何关于实现这一目标的想法或建议我已经使用 asp HyperLinkField 做了类似的事情但是
了解 AWS API Gateway 自定义域名

我很难理解 AWS API Gateway 自定义域的工作原理我已经设置了一个Regional Custom Domain Name对于我的API 比如api example com 结果是Target Domain Name形式为 aa
为什么我的 ODBC 连接在 Visual Studio 中运行 SSIS 加载时失败，但在使用执行包实用工具运行相同包时却失败

我正在 SSIS 2012 中处理数据集市加载包当尝试在 Visual Studio 中执行该包时我收到此错误 AcquireConnection方法调用连接管理器数据 Warehouse ssusr 失败错误代码为 0xC00140
Unicode 无法正确翻译从右到左的语言（希伯来语和阿拉伯语）

下面由 Mikhail Berlyant 提供的 bigquery 代码再次感谢您适用于从左到右的语言例如俄语但是只要要翻译的文本中有双引号它就会在从右到左的语言例如阿拉伯语和希伯来语上失败预期结果应显示所有要翻译的输入文
使用 CGFloat 和 float 有什么区别？

我倾向于在所有地方使用 CGFloat 但我想知道我是否会因此而受到毫无意义的性能打击 CGFloat 似乎是比 float 更重的东西对吧我应该在什么时候使用 CGFloat 什么才是真正的区别正如 weichsel 所说 C
更改通过表单上传的 tmp 文件的文件名

就像标题说我想更改用户通过表单上传的文件的文件名这是代码 HTML
这是一个合理的用户注册流程吗？

我正在制定内部申请的注册流程我的初步设计如下我的主要问题是是否真的有必要包括registration confirmation code 它是保护应用程序免受现实威胁还是只是增加不必要的复杂性对此我不确定用户输入电子邮件地址由于这
如何获得日期为 yyyy-mm-dd 的年份差异？

我想得到以 yyyy mm dd 格式给出的两个日期之间的差异差异应该是年份 var ds 2002 09 23 var today date new Date alert today date Date prototype yyyymm
如何使用 Ant 配置惰性或增量构建？

Java编译器提供增量构建所以javac蚂蚁任务也是如此但大多数其他进程则不然考虑到构建过程它们将一组文件源转换为另一组文件目标我在这里可以区分两种情况变压器cannot获取源文件的子集仅获取整个集合这里我们只能做懒惰
Angular：将数据从工厂 ajax 调用传递回我的控制器

我一直在使用 Angular 并且已经从使用本地数据似乎工作正常转向尝试通过工厂中的 ajax 调用来填充我的视图这是代码 div h2 Get data using a Factory h2 div div div
使用 Asynchronous ReadableStream 和 Response 从 Service Worker 的 fetch 事件返回 HTML

这个问题类似于我的另一个问题 https stackoverflow com questions 62457644 use readablestream with response to return html from fetch eve
JavaFX 中的隐形舞台/场景

我正在寻找一种隐藏 JavaFX 舞台或场景的方法现在我知道了 hide 但这行不通我需要一些仍然保留窗口的东西但只是使其完全透明一个很好的比喻是display none and visibility hidden在CSS中第一个
Dataproc：使用 PySpark 从 BigQuery 读取和写入数据时出现错误

我正在尝试读取一些 BigQuery 数据 ID my project mydatabase mytable 原始名称受保护来自用户管理的 Jupyter Notebook 实例内部Dataproc https cloud google

Dataproc：使用 PySpark 从 BigQuery 读取和写入数据时出现错误

Dataproc：使用 PySpark 从 BigQuery 读取和写入数据时出现错误 的相关文章

随机推荐

热门标签

Dataproc：使用 PySpark 从 BigQuery 读取和写入数据时出现错误的相关文章